Блог на Васил Тошков

Търсачките разбират текст по-добре от хората

Отдавна се каня да седна да напиша няколко реда по тази тема. В нея искам да опиша моите виждания за това как търсачките разбират текста в сайтовете и бъдещето на това разбиране. Като цяло, дори в момента, според мен една машина може да вникне в текст на непозната тематика, по-добре, отколкото човек, също на непозната за него тематика.

Науката, която се занимава с разпознаване на текст и говор по машинен път, се нарича Компютърна лингвистика. Много малко SEO-та се интересуват от напредъка в тази област, а според мен, това е от ключово значение. Все-пак главната цел на търсачките, е да разбират текста, да определят тематиката и ключовите му думи.

Важен е въпросът: "Какво се прави в момента?" и "Какво вече е постигнато?". В университета последната година, много ни занимават с компютърна лингвистика и научих някои неща. Аз естествено виждам всичко от гледище на търсачките и възможностите за SEO, за това и знанията ми са полезни.

Ще говоря за постигнатото за български език в областта на разпознаването на текст. А то наистина е много. За английски език, естествено, е постигнато повече, но важното е да се разбере, че вече има системи, които работят с текстове на български език много по-добре, отколкото случаен човек.

Свидетел съм на системи, които синтезират текст (правят обобщение на най-важното, резюме). Свидетел съм и на системи, които преразказват текст, така, сякаш е писан от друг човек. Това последното може да е много полезно за генериране на уникално съдържание ;)

Преди две седмици ни гостува и изнесе лекция проф. д-р. Руслан Митков от WOLVERHAMPTON UNIVERSITY (Лондон). Той е един от най-добрите лингвисти в света. С какво се занимава? Разработили са система, на която й даваш цял учебник и ти генерира произволен брой въпроси по него. Идеята е въпросите да са за изпит на студенти.

И системата работи със всякакви тематики. Главно правят тестове за студенти по медицина. Това значи сложни термини и необходимост от завъртени въпроси. Системата генерира и залъгалки - подвеждащи отговори, освен верния. Трудното е именно в генерирането на такива (объркващи) отговори.

Какво общо има това със SEO-то? Еми, щом има системи, които резюмират, преразказват и задават въпроси по даден текст на произволна тематика, то няма как Google да не използват такива, дори да са много по-напред. Убеден съм, че използват и това има тежест в алгоритъма, която скоро ще е основна.

Обобщено: Търсачките разбират текста на Вашия сайт. Те знаят каква е тематиката му, какви са ключовите му думи. Но не само това, те знаят точно за какво говорите, знаят до колко полезно е това, което пишете и много добре разбират, ако пишете глупости. Дори разбират, ако някъде в текста грешите.

Търсачките отдавна не са прости роботи, които сканират целия текст от страница, гледат коя дума колко пъти се повтаря и на база повторенията и входящите връзки, класират сайта. И с времето новите технологии ще имат много по-голяма тежест в алгоритъма. И старите методи ще работят все по-малко.

Затова се учудвам на SEO-та, които се явяват на SEO състезания с текстове от типа "Lorem Ipsum" и повтарят в тях основната ключова дума, за която оптимизират. Учудвам се и на хора, които правят, примерно, хамалски сайтове и подходът им е в един WordPress блог да повтарят думата "хамали" в еднотипни, хвалебствени текстове.

Просто, не е това начинът. Какъв е - истинските SEO-та сами ще се сетят. Но примитивните методи отдавна не работят и затова, някои хора не постигат нищо, въпреки всичките им усилия. Не случайно от Google постоянно повтарят: "Правете сайтове за хората, не за търсачките". Просто смисълът е малко по-различен, отколкото повечето хора го разбират.

Може би по-точното е: "Пишете текстовете си за хората, а не за търсачките".