Сейшельский Манимейкер бизнес в интернете, seo, smo, партнёрские программы, в целом бабло |
Что такое униграмма, биграмма, триграмма?27 апреля 2020 года Сеодед.ру рекомендует: Сервисы для анализа текстов на сайтах на спамность, переоптимизацию и качество по отношению к конкурентам
Вопрос: Александр, здравствуйте! Расскажите, пожалуйста, понятным языком, что такое униграмма, би-грамм, три-грамм. Сначала хочу сказать, что правильно говорить «биграмма» и «триграмма», и что происходят эти слова не от «граммов» (а от «грамма» - слово, часть слова). Существует n-грамма – это последовательность из n слов. Исходя из этого должно быть намного понятнее, что:
N-граммы используются для индексирования данных в поисковых системах, для предугадывания последовательностей на основе вероятностных моделей, для определения текстовой релевантности. На основании анализа устойчивых сочетаний из двух и трех слов (соответственно, биграммы, триграммы) и т.д. можно определять спамность текста, например. Можно считать поисковые фразы, полученные из вордстата Яндекса, биграммами, триграммами и т.д., если они состоят из 2, 3 и т.д. слов. Если помните фильтр Баден-Баден, который Яндекс запустил в 2017 году, то одним из основных критериев попадания текста (страницы) под фильтр было использование частоупотребляемых n-грамм в большом количестве. Грубо говоря, если взять поисковые фразы из 2, 3 и более слов и распихать их по тексту, большое количество n-грамм будет свидетельствовать высокой спамности и такой текст попадет под фильтр. Автор и эксперт: АлаичЪ. Новое на блоге:
Комментарии
|
Архив блога:
О сайте:
Мои соцсети: |