| |
Сегодня размножение статей стало очень серьезным и неисчерпаемым источником контента. Несмотря на то, что это в действительности это замусоривание сети, лучше оставить моральный аспект за бортом. Размножение и синонимайзинг в чем то схожи, но это далеко не одно и то же. При синонимайзинге вы получаете из одной статьи другую, при размножении - из одной статьи множество других.
Размножение статей позволяет делать статьи уникальными, и основными характеристиками качества являются соответственно уникальность статей и читабельность. Если с читабельностью все ясно, то с уникальностью есть масса вопросов.
Уникальность, как правило, проверяют с использованием алгоритма шинглов* вот такими программами Shingles Expert 1.0 и Hkey Shingle Text Compare, но данный подход как раз и неуместен, так как не позволяет увидеть реальную уникальность множества статей, но хорошо показывает различие двух статей. Для проверки уникальности массово необходимо использовать иные механизмы - например, пакетной проверки статей на уникальность - WSGURerayterDemo .
Данный метод позволяет проанализировать сразу несколько статей и увидеть, реальную уникальность полученного текста. Замечу, что при уникальности по алгоритму шинглов в 100%, пакетная проверка показывает лишь 50%. А если ваши статьи уникальны по шинглами на 90%, то пакетная проверка покажет вам совсем неутешительные результаты.
На моей практике оптимальным значением уникальности при пакетной проверке является диапазон от 60 до 70 процентов. Именно этого качества удается добиться с меньшими затратами. Для получения качества от 70 до 80 объем формулы приходится, как правило, удваивать, что естественно тут же удваивает и трудозатраты.
Клеятся ли статьи с уникальностью менее 50% по пакетной проверке? Статьи клеятся. Было проверено множество раз - статьи жутко клеятся и банятся - очевидно, ПС имеет алгоритмы поиска дуплицированного контента. Но, тем не менее, важнейшим здесь будет именно то, как размещать статьи. Наиболее часто клеились статьи тогда, когда они разово поступали на индексацию, поэтому, если у вас уникальность статей меньше 50%, то старайтесь растягивать размещение контента на 2 - 3 "апа" выдачи.
Виды размножения.
Существует много видов размножения и каждый из них имеет свои плюсы и минусы.
1. Перебор синонимов.
Этот метод основывается на том, что каждое или через одно слово в статье заменяется несколькими синонимами. Для примера - "Мама мыла раму" - {Мама|Тетя|Бабушка|Девушка|Женщина} {чистила|натирала|драила|терла|скоблила} {раму|стол|окно|стену|дверь}. При переборе значений с помощью специального софта мы можем получить множество разнообразных сочетаний, таких как "Женщина терла дверь" и т.д.
Основная сложность данного подхода в том, что трудно подобрать достаточное количество синонимов без потери первоначального смысла, согласованности предложений, и при этом получить высокую уникальность. Если подбирать синонимы к каждому слову, по 4 - 5, то можно получить уникальность по шинглам 100%, пакетную уникальность - 60%, если халтурить, то уникальность значительно падает.
2. Перемешивание рерайтов.
В этом методе весь текст статьи разбивается на несколько кусков и каждому куску после пишется некоторое количество рерайтов. После используется такая же схема - {|||} - но не для каждого слова, а по кусочкам, где синонимами являются подготовленные рерайты. Наверно самый неэффективный метод.
Рерайтов можно написать очень много - пусть даже по 10, но если вы будите генерировать 1000 статей, то у каждой сотни из них будет минимум один общий кусок текста. Если писать по 5 рерайтов на 1 - 2 предложения текста, то уникальность по шинглам будет в районе 80 - 90%, а пакетная проверка покажет вам порядка 30 - 40 уникальности. Единственным плюсом, который впрочем перечеркивается склейкой, можно считать высокую читабельность текста.
3. "Суперсложный" и подобные методы.
Это комбинирование перебора синонимов и рерайтов - самый качественный вариант, но, тем не менее, если думать, что раз используются рерайты, то можно уменьшать число синонимов - то получается низкого качества размножение и масса трудозатрат. Идеальным вариантом будет написание по 2 рерайтов на каждое предложение текста и полноценный подбор синонимов. Если сделать все именно так, то по шинглам естественно вы получите 100%, а "пакетно" у вас будет от 70 до 90%. Чем больше рерайтов использовать, тем выше будет процент уникальности пакетной проверки.
Я пользуюсь первым методом и добиваюсь хороших результатов в проверках. Вы можете использовать эти макросы - macros.zip (мне их дал glumworks) для быстрого написания формулы.
Эти макросы не занимаются синонимизацией, но они позволяют быстро расставить скобочки в тексте, почистить теги и много всего, чем я сам пользовался. Для установки создайте макросы в вашем документе Word, откройте его для редактирования и замените все содержимое макроса на текст из того файла. Ну или почитайте где-нибудь про макросы…
P.S. Самое интересное то, что существуют скрипты, которые могут восстановить формулу по заданному пакету статей вне зависимости от уникальности статей, а этот факт говорит о том, что установить размноженные ли статьи или нет, не является чем-то невероятным для ПС - хотя, все же нужно иметь только статьи из пакета, иначе ничего не работает... Так что, если делаете размножение - думайте о завтрашнем дне - появятся новые дата-центры и весь некачественный мусор вылетит в трубу.
4. Шинглы.
Этот метод основан на разбиении обоих текстов на цепочки слов (шинглы) и последовательное выявление в текстах схожих цепочек. Тексты разбивают на цепочки случайным образом, что позволяет выявлять такие вещи, как простая перестановка абзацев или просто сдвиг текста на одно слово.
Проверка шинглами наиболее эффективна, если в каждой цепочке не одно слово, а два, три или четыре слова. Так как большинство текстов используют одни и те же слова, а тексты, написанные в одной, узкой теме, как правило, оперируют больше чем на 50% одинаковыми словами и выражениями, основой уникальности является именно совпадение некоторой последовательности слов в проверяемых текстах.
Данный несложный скрипт реализует примитивное сравнение по алгоритму шинглов. |
|