סיווג וחילוץ ישויות מטקסטים

ניתוח טקסט אוטומטי, הפיכת מידע לא מובנה למובנה

חילוץ ישויות טקסטואליות שנמצאו בטקסט – מורפיקס אינסייט מקבל כקלט טקסט חופשי, ומחלץ ממנו את הישויות המרכזיות המופיעות בו לרבות קטלוג לקטגוריות שונות, כגון שמות אנשים, מקומות, ארגונים, כתובות, מחרוזות חוץ לשוניות בעלות משמעות כגון מספרי טלפון, מספרי רישוי רכב, כרטיסי אשראי, כתובות דוא"ל, אתרי אינטרנט ועוד.

הישויות אשר זוהו מחולצות לקטגוריות שבו הן ממוינות לפי סוג הישות, ובמקרים מסוימים לתתי סוגים. המוצר כולל אפשרויות להוספת והעשרת קטגוריות ארגוניות לצורך התאמה אישית של ישויות לצורכי הלקוח. יכולת זו מאפשרת לשייך מילים או שמות לקטגוריות חדשות או להוסיפן לקטגוריות קיימות.

זהו למעשה API, המאפשר למשתמש לעשות עם הפלטים המופקים מהמערכת שימוש נרחב וגמיש, תוך שילוב קל של המערכת בתוך רכיב תוכנה קיימת.

סיווג אוטמטי

בנוסף לחילוץ היישויות, מורפיקס אינסייט מאפשר לסווג ולקטלג טקסטים ומסמכים לנושאים שונים בצורה אוטמטית על בסיס מנגנוני לימוד מכונה מתקדמים המותאמים לשפות שמיות. הסיווג מתבצע על בסיס סט אימון (מצומצם) המתאים לצרכי הלקוח. 

ניתוח מורפולוגי מעמיק על פי ההקשר

יכולת הפרדה נכונה למילים, כולל טיפול בגרשים, גרשיים, וכו'.

זיהוי צירופי מילים (למשל: עבור "בתי ספר", צורת היסוד היא "בית ספר". מזהה כ- 20,000 צירופי מילים).

חילוץ זמנים – עבר/הווה/עתיד

קביעת מין – זכר/נקבה

ניתוח חלק דיבר

נרמול כל מילה בנטייה לצורת יסוד יחידה בהתאם להקשר

המילה בטקסט
הפרדה בין מילות משמעות (פעלים, שמות עצם, פרטיים, תארים) לבין מילות צורה (מילת יחס מילות חיבור)

נרמול צורות כתיב שונות, כולל כתיב מלא, ומילים לועזיות: ראדאר, רדאר, מצטין – מצטיין.

ניתוח רב משמעות על פי הקשר (הטיל – פועל או שם עצם, "הטיל הבליסטי" או "הטיל מס").

סאונדקס – יכולת קביעת צורת יסוד על פי מצלול לצורך ורמליזציה של צורות שאינן מילוניות

לבקשת גרסת הדגמה או לכל שאלה נוספת – צור עימנו קשר

שימושים אפשריים למערכת ניתוח הטקסט

ניתוח והבנה של טקסטים

חילוץ אוטומטי של מילות מפתח לכל מסמך

קטלוג ותיוג מסמכים

זיהוי הזדמנויות עסקיות – שליפת טקסטים שעוסקים במוצר מסוים

זיהוי יישויות לטובת השחרה של מילים רגישות כגון פרטים אישיים, מילים גסות וכו'

תמצות מסמכים

הפיכת מידע לא מובנה למידע מובנה

אינדוקס (חיפוש מושגי, מימוש פאסטות)

ניתוח טקסט לצורך בוטים אוטומטיים

למלינגו מוצר API יעודי המספק יכולות ניתוח טקסט ו NLP לצ'טבוטים אוטומטיים בעברית וערבית. לפרטים נוספים ראו כאן

דוגמה לחילוץ ישויות

 בדוגמה נלקח מאמר, אשר בו סומנו ישויות טקסטואליות שנמצאו בו, כמות המופעים של כל ישות בטקסט
וחלוקה לקטגוריות עפ"י נושאים.

מלינגו ברשתות חברתיות

בין לקוחותינו

. דילוג לתוכן