Сейшельский Манимейкер
бизнес в интернете, seo, smo, партнёрские программы, в целом бабло
Главная > Что такое униграмма, биграмма, триграмма?

 

Что такое униграмма, биграмма, триграмма?

27 апреля 2020 года

Сеодед.ру рекомендует: Сервисы для анализа текстов на сайтах на спамность, переоптимизацию и качество по отношению к конкурентам

Что такое униграмма, биграмма, триграмма?
Вопрос: Александр, здравствуйте! Расскажите, пожалуйста, понятным языком, что такое униграмма, би-грамм, три-грамм.

Сначала хочу сказать, что правильно говорить «биграмма» и «триграмма», и что происходят эти слова не от «граммов» (а от «грамма» - слово, часть слова).

Существует n-грамма – это последовательность из n слов. Исходя из этого должно быть намного понятнее, что:

  • Униграмма – это одно слово,
  • Биграмма – два последовательных слова,
  • Триграмма – последовательность из трех слов.

N-граммы используются для индексирования данных в поисковых системах, для предугадывания последовательностей на основе вероятностных моделей, для определения текстовой релевантности.

На основании анализа устойчивых сочетаний из двух и трех слов (соответственно, биграммы, триграммы) и т.д. можно определять спамность текста, например.

Можно считать поисковые фразы, полученные из вордстата Яндекса, биграммами, триграммами и т.д., если они состоят из 2, 3 и т.д. слов. Если помните фильтр Баден-Баден, который Яндекс запустил в 2017 году, то одним из основных критериев попадания текста (страницы) под фильтр было использование частоупотребляемых n-грамм в большом количестве.

Грубо говоря, если взять поисковые фразы из 2, 3 и более слов и распихать их по тексту, большое количество n-грамм будет свидетельствовать высокой спамности и такой текст попадет под фильтр.

Автор и эксперт: АлаичЪ.

Новое на блоге:

 


Комментарии