Блог на Васил Тошков

Извличане на ключови думи/фрази от текст

Този текст е част от един мой проект по Компютърна лингвистика. Смятам, че може да е полезен за някой. До известна степен има общо с тематиката на блога. За останалите - не му обръщайте особено внимание.

Необходимост и приложения

Извличането на ключови думи от текст е една реална лингвистична задача, която няма еднозначно решение. Ключова дума/фраза е до известна степен относително понятие, което характеризира дума/фраза, която има значителна тежест в текста. Ключовите думи са ни необходими при решаването на редица задачи, ето някои от тях:

- синтезиране на текст
- търсене на текст от търсачки
- оптимизация на текст за търсачки
- преразказване на текст
- смяна на основните думи на текст с техни синоними
и т.н. ...

Често срещани проблеми

Обикновено ключовите думи/фрази са тези думи/фрази, които се повтарят най-често в текста. Но това не е достатъчно условие за тяхното разпознаване. Тук фактор се оказва авторът на текста, като неговият стил може да е такъв, че той да не повтаря достатъчен брой пъти обектите, които целим. Също така авторът може да използва синоними и различни форми и членуване на думите.

При създаването на система, която да извлича ключовите думи от текст, трябва да се имат предвид тези и други факти (специални случаи). Текстовете се различават по размер, тематика, гъстота и разпределение на ключовите думи, и др. показатели. Много често ключовите думи и фрази са именувани обекти от думи или словосъчетания, които не се срещат като думи в речник или някаква база данни.

Примери:
- "Киров ООД"
- "Байкал пропърти груп"
- "Asus EEE PC 1000 H"
- "Историята на Google"
и т.н. ...

Една система за извличане на подобни обекти трябва да разпознава и такива думи/словосъчетания. Друг често срещан проблем е кодировката на файла, от който ще бъде извличан текста, както и кодировката на знаците във файла. Ако документът е в Интернет, което е най-често срещаният пример, възможни кодировки за България са: UTF-8,CP1251,KOI8R ... общо 12 кодировки само на Кирилица.

Основни принципи и технологии

В общия случай приемаме, че ключовите думи са такива думи/фрази, които се повтарят повече или поне един път в текста. Също така приемаме, че думите/фразите в заглавието на текста са ключови думи, ако те в оригиналната си и/или друга форма се съдържат в самия текст. Задължително подлагаме на подробен анализ и думи/фрази в текста, които са форматирани по различен начин.

Различните видови маркировки са: удебелен шрифт, наклонен шрифт, подчертаване, текст на връзка (при xHTML документи), "текст в кавички" (може да са единични, двойни, Word формат или общо над 8 вида), текст от подзаглавие (независимо от нивото на подзаглавието) и т.н. Често текстовете имат и синтезиран индекс на съдържанието, който съдържа предимно ключови думи.

Психологическият фактор

От психологическа гледна точка е доказано, че ключовите думи имат най-голяма гъстота в началото и в края на текста. Причината е, че често, когато авторът започне да пише по дадена тема, той излага фактите и термините в началото, които най-често са ключовите думи. Към средата на текста обикновено настъпва "разсейване", при което тематиката частично убягва.

Следователно, средната част на текста най-малко ни интересува при един подробен анализ. Към края на текста, авторът, в общия случай, се връща към основната тематика на текста и отново и несъзнателно увеличава честотата на повтаряне на ключови думи/фрази. Най-важната част на текста обаче си остава началото, където трябва да се съсредоточат най-много ресурси при анализ.

Този принцип важи само при обемни текстове - над 800 думи. При малки текстове се приема, че ключовите думи са разпределени равномерно из целия текст. Разбира се, логично е в началото на текста те да са повече. Възможно е текстът да съдържа въвеждащ увод, който при всяко положение е богат на ключови думи.

Психологически е доказано и, че всяка ключова дума се среща поне два пъти в едно или две съседни изречения. Хората пропускат използването на местоимения и това спомага за този факт. Тоест, за да докажем, че една дума е ключова, тя не само трябва да се повтаря в началото на текста, но задължително трябва да има такова повторение, че думите да са в непосредствена близост.