Robot.txt-проблемы в настройке


Этот файлик теперь, наверное, один из незаменимых в файлах сайта. Собственно , я никогда не заморачивался над тем как его настраивать, есть и есть , особо не мешает.

Однако в процессе "эксплуатации" парочки своих сайтов начал обнаруживать крайне много дублированного контента- это и проиндексированные странички постраничной навигации, категории, версии для печати, архивы , тэги , особенно это актуально для сайтов под управлением CMS DLE.

Сейчас , часть страниц с дублированным контентом закрыта от индексации в robots.txt , который изначально идет в архиве с dle, код указан ниже:


	User-agent: *
	Disallow: /engine/go.php
	Disallow: /engine/download.php
	Disallow: /user/
	Disallow: /newposts/
	Disallow: /statistics.html
	Disallow: /*subaction=userinfo
	Disallow: /*subaction=newposts
	Disallow: /*do=lastcomments
	Disallow: /*do=feedback
	Disallow: /*do=register
	Disallow: /*do=lostpassword
	Disallow: /*do=addnews
	Disallow: /*do=stats
	Disallow: /*do=pm

Собственно,  поисковый робот яши даже не перейдет по запрещенным ссылкам (некоторые ошибочно считают что он переходит, но при этом запрещенную страницу не включает в поиск). Т.е. сразу видно ,что запрещено для поисковика, для хорошего сайта эти подразделы не нужны, а вот для ГС (говно сайт) они важны в индексе, так как используются в SAPE (система купли-продажи ссылок).

И теперь перейду к своему печальному опыту. Конечно, зная ,что яша любит сайты для людей ( в идеале поисковик должен только индексировать страницы с контентом), начал настраивать robots.txt, и изобразил убогую картину "приплыли":


User-agent: *
	Disallow: /engine/go.php
	Disallow: /engine/download.php
	Disallow: /user/
	Disallow: /newposts/
	Disallow: /statistics.html
	Disallow: /*subaction=userinfo
	Disallow: /*subaction=newposts
	Disallow: /*do=lastcomments
	Disallow: /*do=feedback
	Disallow: /*do=register
	Disallow: /*do=lostpassword
	Disallow: /*do=addnews
	Disallow: /*do=stats
	Disallow: /*do=pm
		User-agent: Yandex (инструкция чисто для ЯШИ)
		Disallow: /engine/go.php
		Disallow: /engine/download.php
		Disallow: /user/
		Disallow: /newposts/
		Disallow: /statistics.html
		Disallow: /*subaction=userinfo
		Disallow: /*subaction=newposts
		Disallow: /*do=lastcomments
		Disallow: /*do=feedback
		Disallow: /*do=register
		Disallow: /*do=lostpassword
		Disallow: /*do=addnews
		Disallow: /*do=stats
		Disallow: /*do=pm
		Disallow: /*print
		Disallow: /autobackup.php
		Disallow: /2012/
		Disallow: /2013/
		Disallow: /tags/
		Disallow: /page/
		Disallow: */page/*
		Disallow: /категория1/
		Disallow: /категория2/ 
		Disallow: /категория3/ и так далее  
		Sitemap: http://мой сайт.ру /sitemap.xml
		Host: мой сайт.ру
	

1.Итак, что я хотел из этого извлечь:

1.1 В парочке блогов (кстати довольно посещаемых ,а посему воспринятых мной как качественные) прочитал ошибочные статьи-это то, что закрывая от индекса категорию Disallow: /категория1/  вы лишь закроете страницу Вашсайт.ру/категория1/, но при этом  Вашсайт.ру/категория1/контент1.html будет проиндексирован;Приняв на веру сии утверждения, решил закрыть все кроме контента. Благая цель- дать людям только информацию .

1.2. Ускорить индексацию так как избавляюсь от лишних дублей;

1.3. Моральное удовлетворение от проделанной глупости.

2.И что приобрел:

2.1 По первому пункту полное выпадение из индекса ЯШИ всех страниц уже через неделю, мало того выпал и из индекса Google (почему объясню ниже);

2.2 По второму пункту полное отсутствие индексации нового контента, что не мудрено см. п.1.1;

2.3  По третьему пункту глупость была достигнута и ,конечно, никакого морального удовлетворения. И слезное "прошу пояснить" в саппорд яши.

Так почему же выпал из индекса сайт в Google?? - по инструкции для User-agent: * (т.е. всех поисковиков) нет запрета на контент, а для ЯШКИ (User-agent: Yandex ) идут чуть другие правила. Все оказалось до нельзя банально Google   включил правила ЯШИ к себе т.е.:

  
	  User-agent: *
		Disallow: /engine/go.php
		Disallow: /engine/download.php
		Disallow: /user/
		Disallow: /newposts/
		Disallow: /statistics.html
		Disallow: /*subaction=userinfo
		Disallow: /*subaction=newposts
		Disallow: /*do=lastcomments
		Disallow: /*do=feedback
		Disallow: /*do=register
		Disallow: /*do=lostpassword
		Disallow: /*do=addnews
		Disallow: /*do=stats
		Disallow: /*do=pm
		Disallow: /engine/go.php
		Disallow: /engine/download.php
		Disallow: /user/
		Disallow: /newposts/
		Disallow: /statistics.html
		Disallow: /*subaction=userinfo
		Disallow: /*subaction=newposts
		Disallow: /*do=lastcomments
		Disallow: /*do=feedback
			Disallow: /*do=register
			Disallow: /*do=lostpassword
			Disallow: /*do=addnews
			Disallow: /*do=stats
			Disallow: /*do=pm
			Disallow: /*print
			Disallow: /autobackup.php
			Disallow: /2012/
			Disallow: /2013/
			Disallow: /tags/
			Disallow: /page/
			Disallow: */page/*
			Disallow: /категория1/
			Disallow: /категория2/ 
	  Disallow: /категория3/ и так далее  
	  Sitemap: http://мой сайт.ру/sitemap.xml
			Host: мой сайт.ру 
	   
	  

Вот такой вот гладиолус. Возможно я и профан, но всегда думал поисковики читают в robotx.txt , только инструкции для себя.

На данный момент все поправил и считаю что самой оптимальной конструкцией robotx.txt  для сайта, основанного на DLE и всех поисковиков, является:


		 
		
			User-agent: *
			Disallow: /engine/go.php
			Disallow: /engine/download.php
			Disallow: /user/
			Disallow: /newposts/
			Disallow: /statistics.html
			Disallow: /*subaction=userinfo
			Disallow: /*subaction=newposts
			Disallow: /*do=lastcomments
			Disallow: /*do=feedback
			Disallow: /*do=register
			Disallow: /*do=lostpassword
			Disallow: /*do=addnews
			Disallow: /*do=stats
			Disallow: /*do=pm
			Disallow: /*print
			Disallow: /autobackup.php
			Disallow: /2012/
			Disallow: /2013/
			Disallow: /tags/
			Disallow: /page/
			Disallow: */page/*
			Sitemap: http://мой сайт.ру/sitemap.xml
			Host: мой сайт.ру
		

Да и  помните, что директива Host:- воспринимается только ЯШКОЙ. И еще определитесь какой у вас будет основной сайт  мой сайт.ру или  www.мой сайт.ру(для поисковиков это разные сайты, поначалу) и пропишите в директиве Host: -это даст возможность яше быстро выделить основное зеркало и в будущем мой сайт.ру или  www.мой сайт.ру- склеить (т.е. выдавать как один сайт), но даже без этой директивы ЯША сам определит главное зеркало, да и гугля тоже, просто времени уйдет больше.

Вот и все. Если есть замечания пишите.


Добавить комментарий

    • bowtiesmilelaughingblushsmileyrelaxedsmirk
      heart_eyeskissing_heartkissing_closed_eyesflushedrelievedsatisfiedgrin
      winkstuck_out_tongue_winking_eyestuck_out_tongue_closed_eyesgrinningkissingstuck_out_tonguesleeping
      worriedfrowninganguishedopen_mouthgrimacingconfusedhushed
      expressionlessunamusedsweat_smilesweatdisappointed_relievedwearypensive
      disappointedconfoundedfearfulcold_sweatperseverecrysob
      joyastonishedscreamtired_faceangryragetriumph
      sleepyyummasksunglassesdizzy_faceimpsmiling_imp
      neutral_faceno_mouthinnocent
  • Яндекс.Метрика