CNSearch 1.5.1
Список параметров
Для процесса индексации возможно использование следующих параметров:
- URL
- Extensions
- Type
- Path
- CharSet
- MaxFiles
- MinWords
- Exclude
- ExcludeVar
- AddOption
- StopWordsFile
- Language
- AFrom
- ATo
- StartWord
- Sleep
- ShowURL
- ShowEmail
- ShowFTP
- Compress
- MetaDescription
- MetaRobots
- UseRobotsTxt
- ConnectCount.
URL url
Адрес, начинающийся с 'http://...' в HTTP-режиме индексации, либо путь к копии сайта на локальном диске в режиме локальной индексации.
Пример:
Для HTTP:
URL http://www.novgorod.ru/frisbee/
Для диска (Windows):
URL c:/pub/home/frisbee/
Для диска (Unix):
URL /pub/home/frisbee/
Extensions ext1,ext2,ext3
Параметр задает список расширений файлов, включенных в индексацию; может использоваться только в режиме локальной индексации. Расширения файлов разделяются запятой ",".
Пример:
Extensions htm,html,shtml,shtm
Type typ
Параметр задает тип поискового индекса:
- Обычный;
- Сокращенный - индексный файл меньшего размера, не поддерживающий отображение части текста, содержащей выделенные поисковые слова. (См. Модуль поиска).
По умолчанию - обычный.
Пример:
Type Strict
Path path
Параметр задает путь к каталогу, в котором сохраняются индексные и лог-файлы.
Пример:
Path c:\www\site.com
либо
Path /home/www/site.com
CharSet cset
Параметр устанавливает метод определения кодировки индексируемых файлов. Возможны следующие методы:
- ByMetaTag - идентификация кодировки с помощью тэга META (по умолчанию).
- ByHTTPHeader - идентификация кодировки с помощью HTTP заголовка. В случае если данная идентификация не срабатывает, система предпринимает попытку определить набор символов с помощью тэга МЕТА. Если оба варианта не проходят, система предполагает, что данный документ имеет кодировку windows-1251.
- win-1251 - не определяет кодировку; win-1251 по умолчанию.
- koi8-r - не определяет кодировку; koi8-r по умолчанию.
Пример:
CharSet ByHTTPHeader
MaxFiles num
Параметр задает максимальное количество индексируемых файлов; по умолчанию 10000. Будьте осторожны: многие сервера содержат огромное количество зацикливающихся ссылок.
Пример:
MaxFiles 50
MinWords num
Параметр задает минимальное количество слов в индексируемом документе. Документы с меньшим количеством слов не будут добавлены в поисковый индекс. Этот параметр позволяет повысить качество результатов поиска путем выбрасывания маленьких и неинформативных документов. Значение по умолчанию - 1
Пример:
MinWords 30
Statistic stat
Параметр задает способ сохранения отчетов, которые генерируются в завершающей стадии процесса индексации и сохраняются в stats.log. Возможные опции:
- No - не сохранять отчет;
- Append - добавить к существующему файлу (по умолчанию);
- Overwrite - заменить существующий файл.
Пример:
Statistic Append
Exclude excl1,excl2,excl3
Параметр задает список слов, исключаемых из индексации. Адреса, содержащие, как минимум, одно из исключаемых слов, также не включаются в индексацию. Слова разделяются запятой ",".
Пример:
Exclude editpost.php?,reply.php?,admin/
ExcludeVar var1,var2,var3
Параметр задает список переменных, исключаемых из URL сайта. Переменные разделяются запятой ",".
Пример:
ExcludeVar PHPSESSID,order
AddOption opt
Параметр задает метод индексации и используется только в HTTP-режиме. Доступны следующие варианты:
- Page - индексируется только текущая страница;
- SubPages - индексируются все страницы, URL которых содержит адрес стартовой страницы;
- Server - индексируется весь сервер.
Пример:
AddOption SubPages
StopWordsFile file
Параметр задает имя файла, содержащего стоп-слова (см. Стоп-слова).
Пример:
StopWordsFile stop.txt
Параметр задает язык. Если данный параметр указан, поле 'Accept-Language' включается в HTTP- заголовок. Эта переменная может влиять на содержимое документов на некоторых сайтах.
Пример:
Language ru
AFrom path
Параметр задает подстроку, которая в URL будет замещена строкой, указанной в параметре ATo.
Пример:
AFrom /home/dir/mysite/
ATo http://search.codenet.ru/
ATo url
Параметр задает подстроку, заменяющую AFrom в URL; используется вместе с параметром AFrom.
Пример:
AFrom http://127.0.0.1/
ATo http://www.codenet.ru/
или
AFrom c:/documents/www/www.codenet.ru/
ATo http://www.codenet.ru/
StartWord word
Параметр определяет слово, с которого начинается процесс индексации страницы сайта. Описание страницы составляется из слов, следующих за стартовым словом. Таким образом, возможно исключение меню и т.п. из описания.
Пример:
StartWord about
Sleep seconds
Параметр определяет задержку между индексированием страниц сайта. Задается в секундах.
Пример:
Sleep 5
ShowURL yesno
Отображать адреса страниц в процессе индексации. По умолчанию - "yes".
Пример:
ShowURL no
ShowEmail yesno
Отображать найденные адреса электронной почты (mailto:) в процессе индексации. По умолчанию - "no".
Пример:
ShowEmail no
ShowFTP yesno
Отображать найденные FTP адреса в процессе индексации. По умолчанию - "no".
Пример:
ShowFTP no
Compress yesno
Просить сервер сжимать содержимое ответа, если сервер поддерживает такую возможность. По умолчанию - "yes". Некорректное сжатие страниц может привести к сбою в работе индексатора.
Пример:
Compress no
MetaDescription yesno
Параметр определяет метод описания страницы. Описание может отображаться в результатах поиска с помощью специального символа %E (см. cnsearch.conf). Возможные значения - "Yes"/"No". По умолчанию - 'No'. Если используется 'Yes', система пытается получить описание из тэга '<META name="description...'. Если тэг невозможно найти, либо задано значение 'No', описание составляется из первых слов документа (см. StartWord).
Пример:
MetaDescription Yes
MetaRobots yesno
В случае если проставлен параметр "No", тэг '<META name="robots"...' игнорируется; в противном случае тэг анализируется на наличие NOINDEX, NOFOLLOW, NONE. Более подробно см. в разделе Поисковые роботы. По умолчанию - "Yes".
Пример:
MetaRobots No
UseRobotsTxt <yesno>
В случае если проставлен параметр "Yes", алгоритм индексации заимствуется из файла 'robots.txt', хранящегося в корневом каталоге веб-сервера. По умолчанию - "No". Более подробно см. в разделе Поисковые роботы. Имя робота - "CNSearch".
Пример:
UseRobotsTxt yes
ConnectCount <num>
Параметр задает количество запросов удаленного файла. По умолчанию - 5.
Пример:
ConnectCount 10