Правила распознавания слов при полнотекстовом поиске

Распознаваемый элемент «Слово» текста документа может включать:

  • буквенно-цифровые символы (согласно стандарту UNICODE) и символ '_';

  • символы, значимые в середине слова: '@', '-', '/'. Данные символы являются частью слова, если окружены указанными выше символами (буквенно-цифровыми и знаком подчеркивания). В частности, эти символы не могут быть первым или последним символом слова.

Имена и значения атрибутов подчиняются правилам, устанавливаемым спецификацией XML.

Фильтр xml2text использует следующие правила:

  • имя атрибута начинается с символов a-z, A-Z, А-Я, а-п, р-я, Ё, ё, '_', ':';

  • имя атрибута продолжается символами a-z, A-Z, А-Я, а-п, р-я, Ё, ё, 0-9, '_', ':', '.', '-';

  • кодировка по умолчанию CP866;

  • если документ содержит атрибут CONTENT, то кодировка документа определяется значением подстроки charset=… внутри значения атрибута CONTENT.

Фильтр unixml2text использует следующие правила:

  • имя атрибута начинается с буквенно-цифровых символов (согласно стандарту UNICODE) или символов '_', ':';

  • имя атрибута продолжается буквенно-цифровыми символами, а также '_', ':', '.', '-'.

Значением атрибута является заключенная в одинарные или двойные кавычки строка с учетом следующих замен:

ПоследовательностьСимвол
"'"'
&'&'
<'< '
>' >'
 ' '

Максимальная длина слова, имени и значения атрибута составляет 64 однобайтового символа. Длинные слова при поиске усекаются до 64 однобайтовых символов.