UMIhelp

Разработка сайта на UMI.CMS => Настройка системы и модулей => Тема начата: HardHardy от 15 Июля 2011, 09:36:09

Название: Формирование xml карты сайта. Настройка роботс.тхт
Отправлено: HardHardy от 15 Июля 2011, 09:36:09
Здравствуйте!
Тут от хостинга пришло уведомление, что превышен разрешенный лимит потребления ресурсов сервера. Из 500 разрешенных подскочила аж до 838 :)
Я так понял, что это робот Яндекса виноват. Он как раз в этот день сканировал мой сайт. Причем странно то, что в роботс.тхт прописанно:
Цитировать
User-Agent: Googlebot
Disallow:
Disallow: /?
Disallow: /emarket/addToCompare
Disallow: /emarket/basket
Disallow: /go_out.php

User-Agent: Yandex
Disallow:
Disallow: /?
Disallow: /emarket/addToCompare
Disallow: /emarket/basket
Disallow: /go_out.php

Host: мой_сайт.ru
Crawl-delay: 3
User-Agent: *
Disallow:
Disallow: /?
Disallow: /emarket/addToCompare
Disallow: /emarket/basket
Disallow: /go_out.php

Sitemap: http://мой_сайт.ru/sitemap.xml
но он все равно выгрузил 114 страниц emarket/basket/ и еще несколько которых у меня вообще давно уже нет.
Ну думаю ладно, наверное еще с прошлого раза висят.
Вопрос, в принципе, не в этом. Начал разбираться с сайтмапом.хмл. Сформировал, забросил в корень. Стал проверять он мне выдает вообще какой-то левый сайтмап по запросу http://мой_сайт.ru/sitemap.xml.
В корне сайтмап.пхп посылает на /libs/root-src/sitemap.php, следующего содержания:
Цитировать
<?php

   header("Content-type: text/xml");
   ob_clean();

   require CURRENT_WORKING_DIR . '/libs/config.php';

   echo '<?xml version="1.0" encoding="UTF-8"?>
   <urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:xlink="http://www.w3.org/TR/xlink" xsi:schemaLocation="http://www.google.com/schemas/sitemap/0.84    http://www.google.com/schemas/sitemap/0.84/sitemap.xsd">';

   $cmsController = cmsController::getInstance();
   $domainId = $cmsController->getCurrentDomain()->getId();

   $dirName = CURRENT_WORKING_DIR . "/sys-temp/sitemap/{$domainId}/";
   $dir = dir($dirName);
   while (false !== ($file = $dir->read())) {
      if(is_file($dirName . $file)) readfile($dirName . $file);
   }
   $dir->close();

   echo '</urlset>';
?>
и уже из директории /sys-temp/sitemap/, как я понял, формируется http://мой_сайт.ru/sitemap.xml.
Я в пхп полный ноль. У меня формирует всего 8 ссылок, из которых пара-тройка из основного меню, остальные из каталога.
Подскажите по какому принципу идет формирование? Как задействовать все, 500 с копейками, ссылки?
Ну и с роботс.тхт что сделать, чтоб Яндекс моего хоста не калечил?  ::)
Буду очень признателен за помощь!
Название: Re:Формирование xml карты сайта. Настройка роботс.тхт
Отправлено: albion от 15 Июля 2011, 12:44:27
В случае, если указано Disallow: без параметров - Яндексу пофиг на все остальные запреты. Проверить все это вы можете через Яндекс Вебмастер проверка роботс txt

Sitemap, если я не ошибаюсь формируется по принципу - есть галочка показывать в меню, он и выводит ссылку, а если нет этой галочки, то не выводит.
Название: Re:Формирование xml карты сайта. Настройка роботс.тхт
Отправлено: albion от 15 Июля 2011, 12:46:53
Да, и включите, если не включено, кеширование. У меня на хостинге timeweb нагрузка с 1500 (хотя разрешено максимум 50) после включения кеширования упала до 8. Использовал Memcashed
Название: Re:Формирование xml карты сайта. Настройка роботс.тхт
Отправлено: HardHardy от 15 Июля 2011, 12:57:33
В случае, если указано Disallow: без параметров - Яндексу пофиг на все остальные запреты. Проверить все это вы можете через Яндекс Вебмастер проверка роботс txt

Sitemap, если я не ошибаюсь формируется по принципу - есть галочка показывать в меню, он и выводит ссылку, а если нет этой галочки, то не выводит.
Ну в яндекс вебмастре нажимаю проверить, выдает:
Цитировать
11-19      User-Agent: Yandex
                 Disallow:
                 ...
                 Disallow: /go_out.php

21-22      Host: мой_сайт.ru
                 Crawl-delay: 3

33-33      Sitemap: http://мой_сайт.ru/sitemap.xml
Как это понимать, работает?

А про сайт мап имеется ввиду sitemap.xml, необходимый для поисковиков. Приоритеты расставить и т.п.

Да, и включите, если не включено, кеширование. У меня на хостинге timeweb нагрузка с 1500 (хотя разрешено максимум 50) после включения кеширования упала до 8. Использовал Memcashed
А где можно взять эти кеширующие механизмы?
Название: Re:Формирование xml карты сайта. Настройка роботс.тхт
Отправлено: albion от 15 Июля 2011, 13:07:38
Это он вам говорит какие строки для него указ.

Вы там урл вбейте, типа http://www.site.ru/emarket/addToCompare/997/ , и увидите, что получится. (Список URL
добавить)

А кеширующие механизмы должны отображаться в конфигурации, и если их там нет, то обращайтесь в тех. поддержку хостинга.
Название: Re:Формирование xml карты сайта. Настройка роботс.тхт
Отправлено: albion от 15 Июля 2011, 13:10:22
Да, и исправить robots.txt можно в файле /libs/root-src/sbots.php удалив $rules .= "Disallow: \r\n";
Название: Re:Формирование xml карты сайта. Настройка роботс.тхт
Отправлено: HardHardy от 15 Июля 2011, 13:15:50
А кеширующие механизмы должны отображаться в конфигурации, и если их там нет, то обращайтесь в тех. поддержку хостинга.
Там есть один, называется - файловая система.

Да, и исправить robots.txt можно в файле /libs/root-src/sbots.php удалив $rules .= "Disallow: \r\n";
ну я закинул робот.тхт в корень и яндекс выгружает именно его. Так и что вы посоветуете, удалить строчку Disallow: без параметров для Яндекса?
Название: Re:Формирование xml карты сайта. Настройка роботс.тхт
Отправлено: albion от 15 Июля 2011, 13:20:15
Да, удалите эту строчку.

А по поводу кеша обратитесь в тех поддержку хостинга, возможна вам установят один из кеширующих механизмов, которые поддерживает UMI.

•   apc;
•   eaccelerator;
•   xcache;
•   memcached;
Название: Re:Формирование xml карты сайта. Настройка роботс.тхт
Отправлено: HardHardy от 15 Июля 2011, 13:23:52
Спасибо за помощь!

Вопрос с sitemap.xml остается открытым..
Название: Re:Формирование xml карты сайта. Настройка роботс.тхт
Отправлено: HardHardy от 28 Июля 2011, 09:32:17
Служба заботы Юми объяснила мне, что в панели управления сайтом нужно зайти в раздел "конфигурация", а там во вкладку "домены". Где есть кнопочка "Обновить sitemap.xml". )))
Вот и все! :)
Кстати о роботс.тхт. Действительно, строчку Disallow без параметров нужно удалять. :)