Коротко обо всём
Персональный блог о самом разном. Ссылки на интересные статьи, цитаты из книг и фильмов.
rss twitter mail
Статистика блога

Записей: 7
Просмотров: 247510

Контент для сайтов

Я описал способы, проверенные лично самим собой. Я не палю тему - эти способы знают уже многие да и некоторые из них очень трудоемкие. В любом случае, прочтение этого поста может сэкономить ваше время в поиске контента для сайта.


Контент из заброшенных блогов

Хотя у меня не было больших надежд, я решил попробовать найти информацию на блогах, которые не индексируются яндексом. Конечно, это слегка глупо - ведь если Яндекс не индексирует сайт, то значит информация абсолютно непригодна. Но у меня была небольшая надежда на редкие исключения. Например, блог могли забанить за чрезмерное размещение ссылок Sape или по другой причине. Лично у меня был такой случай, когда информацию с моего сайта украли таким образом и теперь написанные лично мной тексты являются неуникальными.


Найти сайты, которых нет в яндексе можно было бы в гугле, но это было бы долго. Учитывая множество запросов, которые для этого бы понадобились, я бы получил бан от поисковой системы. Потому я воспользовался базой русских сайтов, и стал проверять все блоги в алфавитном порядке.


Я сэкономил очень много времени, написав скрипт по проверке доменов на наличие их страниц в яндексе. Учитывая то, что требовалось вводить капчу (я связал скрипт с антикапчей), проверка всех сайтов затянулась на неделю.


Статистика первой тысячи сайтов (предполагалось, что это WordPress)

95 процентов - либо бан либо АГС. Эти сайты явно заслужили бан - информация была просто ужасной, и сравнить такие сайты можно только с дорвеями. Попытка создателей обмануть яндекс путем вставки случайных картинок, переведенного программой текста оказалась неуспешной, хотя возможно в свое время они были в индексе.

5 процентов - СДЛ. Нашел несколько хороших интересных сайтов. Больше всего понравился сайт 1000ideas.ru, о разных безумных идеях, которые придумывают люди в современное время.

Меньше процента - с уникальным контентом, но сайт не для людей (сгенерированный текст, либо взятый с сайтов знакомств, досок объявлений и т.п).


Очень небольшой процент, всего 1-2 сайта из тысячи - это те сайты, которые получили бан незаслуженно. Пример тому - сайт верстальщика, который размещал коды у себя в блоге. И еще один маленький блог какого-то вебмастера из 15-20 постов.


Синонимизированный контент

Контент такого рода очень долго приносил мне пользу. Еще несколько месяцев назад все мои сайты с подобным контентом успешно находились в индексе, несколько тысяч страниц с каждого сайта. В принципе и сейчас остались пара сайтов. Вообще мои сайты ни разу не банились за это, находились другие причины.


Да и сами скрипты - синонимизаторы были очень даже неплохие. Я проверил множество синонимизаторов, но оставил только два.

Самым смешным мне показался синонимизатор в Word, который работал при наличии определенного макроса. Помню результатом слова "есть" оказалось "грызть", хотя иногда генерировался более-менее подходящий вариант.

Выбранные мною синонимизаторы текста работали немного иначе. Первый синонимизатор работал без генерации, для каждого слова был указан только один вариант синонима, что избегало таких вариантов, как "есть" и "грызть". Второй синонимизатов добавлял слова к тексту. Например, предложение "подарить цветы любимой жене" превращалось в "подарить красивые цветы горячо любимой жене". К сожалению, база слов была небольшая. В целом, общий смысл текста становился понятным.


Но на настоящий момент я решил не прибегать к этому способу. Цель в настоящий момент - создать около сотни сайтов, которые гарантированно не выпадут из Яндекса.


Контент из книг

Уникальный контент, взятый из сканированных книг использовали некоторые знакомые на форуме поисковых систем, потому я решил попробовать сам.

Наибольшая вероятность получить уникальную на сто процентов информацию - это найти у себя дома старые книги, которых нет в интернете в любом из электронных форматов.

Лично у меня дома этого хлама навалом. Книги были уже совсем никому не нужны и их просто сжигали, чтобы освободить место в комнате.

Но я не взялся за эту затею по нескольким причинам:

1. Сканирование требовало много времени и усилий (переворачивание страниц)

2. Информация была просто бесполезной - литература 70-80 годов вряд ли подойдет для создания человеческого сайта.

3. Не было сканера. Конечно если бы не первые два пункта, можно бы купить новый...


Тогда я решил находить уже готовые книги в интернете и распознавать их в файн ридере. Есть очень много книг с полезной информацией. Пример тому - книга "1000 советов для дома", каждый совет которой можно было бы оформить в качестве отдельной статьи. К тому же, распознавать книги можно было намного быстрее, чем журналы и ошибок в структуре текста почти не было.

Увы, до меня оказалось много умников, которые заметили такие книги и уже разместили её на своих сателлитах. Оставалось находить только редкие книги, но часто они также были использованы кем то. В результате распознавания около 200 книг, нашлось только десяток книг с узкотематической специализацией.


Пришлось отложить и этот способ временно в сторону, но если кто-то собирается этим заниматься, то вот некоторые тонкости, которые я узнал во время работы:


1. Больше вероятности найти уникальный текст в формате дежавю, чем в пдф или док. Два последних индексируются яндексом.

2. Для экономии времени, можно распознавать сразу несколько документов в файн ридере. Правда, даже самая последняя версия (на настоящий момент у меня десятая) часто выдает ошибку и останавливает работу. В таком случае, просто снимите задачу и уничтожьте процесс через инспектор задач. А затем, откройте программу заново.


Контент из журналов

Этот вариант получения контента показался первоначально мне самым удобным. Тем более, у меня уже была база данных с журналами - картинки к ним, ссылки на файлообменники и краткая информация.


Предполагалось, что для каждого вида журнала будет куплен отдельный домен.

Тем самым, я смог бы создать около 100 более-менее человеческих сайтов.


Пошагово это выглядело так:

1. Создается домен для определенного журнала, например Maxim.

2. Скачивается один выпуск (для начала) вышеуказанного журнала.

3. Журнал в формате пдф или дежавю распознается с помощью файн ридер.

4. Распознанные тексты добавляются через админку на сайт в виде отдельных статей.

5. Добавляется по одной картинке из журнала к каждой статье.


Учитывая пятый пункт, подобный сайт мог бы выглядеть как официальный.


К сожалению, у этого варианта оказались минусы:

Причины:

1. Распознавать статьи из журналов было сложнее из-за множества изображений, вставок текста, рекламы и прочего. На удаление лишнего текста требовалось много времени.

2. Большинство журналов уже имеют свои сайты, на которых уже размещены все статьи их журнала.


Тем самым, нужно было найти более редкие, и желательно старые выпуски, размещение которых не нарушало копирайтов. И не пожалеть времени на распознавание текстов.

Учитывая сложность, я оставил эту идею на потом, решив найти что-либо полегче.


Комментарии

Комментариев нет, или они на модерации










Навигация

Главная страница

Избранные записи


Интересное


Счетчик

Website Security Test