Индексирование документов

(Систематизация, предметизация, координатное индексирование)

Индексирование – это выражение содержания документа и/или смысла информационного запроса на информационно-поисковом языке (ГОСТ 7.74-96). Выделяют три вида индексирования документов: классификационное (систематизация), предметное (предметизация), координатное (координатное индексирование).

Предметное индексирование – индексирование предметного содержания документа, выраженное языком предметных рубрик.

Классификационное индексирование – систематизация документов посредством понятий и кодов какой-либо классификационной системы.

Координатное индексирование – индексирование, предусматривающее многоаспектное выражение основного смыслового содержания информационного запроса множеством ключевых слов или дескрипторов.

Название поля

Указания

Классификационный индекс, определенный по таблицам ББК

Индексы другой классификации, используемой библиографирующим учреждением, например, ТБК или таблицы для краеведческих документов

Определяется по встроенной таблице Хавкиной. Автоматически проставляется после сохранения при наличии классификационного индекса

903: Шифр документа в БД

Идентификатор документа, строится автоматически

906: Систематический шифр

Расстановочный шифр, определяемый библиографирующим учреждением

60: Раздел знаний

Порядковый номер, включающий название отрасли в целом

Краткая формулировка темы на естественном языке

Предметный заголовок

Первый элемент многочленной предметной рубрики

1-й подзаголовок

Конкретизируют основные характеристики, состав, состояние, свойства и т. д. предмета, выраженного заголовком предметной рубрики

2-й подзаголовок

Детализирует аспекты рассмотрения предмета, выраженные в 1-м подзаголовке предметной рубрики

Эффективность

3-й подзаголовок

Детализирует аспекты рассмотрения предмета, выраженные во 2-м подзаголовке предметной рубрики

Математические расчеты

Географический подзаголовок

Отражают географический (территориальный) аспект рассмотрения предмета, показывают его связь с определенной территорией

Географический подзаголовок

Географический подзаголовок

Хронологический подзаголовок

Конкретизируют период времени или определенную дату. Обозначают арабскими цифрами, словесными формулировками эпохи и периодов

2005–2008 гг.

20 в., вторая половина

610: Ненормированные ключевые слова

Ключевое слово (словосочетание из текста документа), которое несет в данном тексте существенную смысловую нагрузку с точки зрения информационного поиска. Целесообразно использовать КС для дополнительного раскрытия содержания документа на более глубоком уровне, т. е. использовать ПР для описания основных предметов документа и их аспектов, КС – для их дальнейшей детализации а также описания побочных тем документа. Выбираются непосредственно из текста документа и вводятся в данное поле, если они отсутствуют в заглавии и предметной рубрики

Писатели

Доплера эффект

Оздоровительные лагеря

600: Персоналия

(о нем) – имя лица

Предметная рубрика, заголовком которой является имя лица, если оно является предметом рассмотрения в документе. Содержит подполя, аналогичные полям 700 «Автор» и 701 «Другие индивидуальные авторы»

Фамилия, инициалы

Расширение инициалов

Татьяна Григорьевна

Неотъемлемая часть имени

Дополнения к именам, кроме дат

Д-р филол. наук (фольклорист), лауреат Гос. премии УР (2004)

Даты жизни

Разночтение фамилий

Персоналия (о нем)

Записывается в одну строчку полное наименование организации

Ижсталь, спортивная команда по хоккею

331: Аннотация

Краткая характеристика документа, поясняющая его содержание, назначение, форму, другие особенности

Процесс индексирования включает следующие этапы:

– выявление основных компонентов содержания документа,

– представление выявленных компонентов содержания средствами информационно-поисковых языков.

В процессе индексирования учитываются:

– информационные потребности пользователей,

– общая и частные методики индексирования.

Предметные рубрики (ПР), присвоенные документу, должны отражать содержание каталогизируемого документа с максимальной полнотой и точностью. Как правило, документу следует присваивать адекватные ПР, формулировка которых выражает объем понятия, наиболее точно соответствующий объему понятия о предмете документа. Обобщающие рубрики, которой выражает объем понятия более широкий, чем объем понятия о предмете документа, присваиваются в том случае, если нерационально использовать адекватные ПР.

Количество ПР, присвоенных документу, может быть различным и зависит от содержания каталогизируемого документа. Индексатор может присвоить документу одну или несколько ПР.

Новые предметные рубрики создаются при наличии документов соответствующей тематики. Для формулирования новых ПР следует использовать термины, соответствующие современному состоянию терминосистем. Использование терминологии должно основываться на

§ отраслевых энциклопедиях;

§ современных терминологических словарях;

§ каталогизируемых документах.

Правила формулирования предметной рубрики

1. В состав ПР могут входить все части речи , но основной языковой формой выражения понятий в ПР являются имена существительные и словосочетания на их основе. Наличие существительного в ПР обязательно.

2. Заголовок и подзаголовки предметных рубрик формулируются в именительном падеже . При инверсировании словосочетаний может применяться родительный падеж . Например: Ома закон.

3. Слова, используемые в предметной рубрики, формулируются во множественном числе . Исключение представляют термины, которые не употребляются во множественном числе. Например: Транспорт. Дыхание. Единственное число принято и для тех слов, которые во множественном числе обозначают другое понятие. Например: Театр – как вид искусства и Театры – как вид учреждения.

4. При употреблении предмета в полной и краткой форме предпочтение отдается полной форме. Исключение составляют слова у которых краткая форма вытеснила полное наименование предмета и сокращение вошло в терминологию. Например: КПСС, ЮНЕСКО.

5. При использовании в формулировке предметных рубрик многозначных слов и слов-омонимов в скобках указывать слова, уточняющие содержание понятия (реляторы). Например: Представления (гносеол.) и Представления (мероприятия).

6. Для того, чтобы в позиции ведущего слова предметной рубрики находилось слово, несущее максимальную смысловую нагрузки, возможно применение инверсии. Инверсия применяется в следующих случаях:

6.1. В отношении таких понятий, как теорема, теория, метод, задача, эффект, явление и т. д. Например: Вероятностей теория, Ферма теорема.

6.2. В отношении так называемых «нехарактерных» прилагательных. В этих случаях существительное является основным словом, определяющим сущность предмета, а прилагательное обозначает не основные свойства предметов, а их частные вторичные признаки

К таким признакам относятся:

– некоторые нехарактерные внешние признаки (величина, объем, форма, цвет и т. д.). Например: Строительные конструкции легкие.

– физические свойства и состояния (твердый, жидкий, сухой и т. д.). Например: Пищевые продукты жидкие.

– некоторые количественные, пространственные и временные определения и отношения. Например: Музыкальные фестивали международные.

Исключениями являются те случаи, когда нехарактерное само по себе прилагательное является частью общепринятого термина. Например: Внешняя торговля.

6.3. В случае, если имя собственное входит в географическое название.

Например: Лаптевых море.

Правила формулирования географического термина

1. При формулировании географического термина, вводимого в словарь, следует использовать исторически сложившиеся, более краткое общеупотребительное название государства. Развернутые официальные названия государств используются только при отражении юридической литературы. Например: Конституция – Российская Федерация.

Географическое наименование должно соответствовать историческому периоду, рассматриваемому в документе. Например:

Вятская губерния

Устинов, город.

2. Названия всех географических объектов должны иметь уточнения, к какой категории географических объектов они относятся (город, остров, река и т. д.). Эти уточнения записываются без сокращений через запятую и пробел после наименования объекта. Например.

Индексирование документов - это сложный информационно-технологический процесс, с помощью которого становится возможен поиск данного документа поисковыми системами.

Где используется индексирование документов

Индексирование широко применяется поисковыми системами. Также может применяться и локальными программами, например, электронными архивами. Индексирование документов заключается в их описании специальными информационно-поисковыми терминами, в итоге каждому документу присваивается определённый набор ключевых слов, отражающих его смысловое наполнение.

Дополнительные настройки

Индексирование документов в большинстве электронных архивов происходит автоматически, но в той или иной степени требует дополнительных настроек. Например, автоматическое индексирование документов может происходить при помощи специального словаря тезариуса и будет называться контролируемым, а может быть свободным.

Когда делают индексирование:

  • При работе с базами данных;
  • При работе с электронными архивами;
  • При работе с CRM системами.

Недостаток свободного индексирования

Недостатком свободного индексирования перед контролируемым является то, что в текстах документов будут обнаруживаться слова без учёта изменений их форм. Кроме того, для расширения поиска в тезариус возможно включать синонимы ключевых слов и словосочетаний. Также стоит упомянуть, что индексирование документов может быть автоматизированным и координатным, что во много раз расширяет возможности поиска. Между этими видами индексирования документов существуют немалые различия, но они оба предусматривают некое интеллектуальное решение поисковой машины, позволяющее ей более подробно и многосторонне взглянуть на смысловое содержание документа.

Быстрый и качественный поиск

Если рассматривать индексирование документов относительно бумажных архивов, то здесь значение этого словосочетания меняется и означает классификацию документов. Индекс такого документа включает в себя несколько цифр, например: порядковый номер документа, номер структурного подразделения, номер номенклатуры и т.п.

ГОСТ

Индексирование бумажных документов производится в соответствии с ГОСТом, но в конечном итоге преследует ту же цель, что и индексирование электронной документации – облегчение поиска необходимой информации, необходимого документа. Наша компания уже много лет занимается индексированием документов. Если вас заинтересовала данная услуга обратитесь к нашим специалистам.

Примеры индексирования документов в конкретной и биографической базе данных

При индексировании документов используется два вида информационно-поискового языка: классификационные индексы и ключевые слова. При формировании базы данных индексирование осуществляется de visu – по полному тексту исходного документа. Такой метод позволяет с помощью набора ключевых слов более полно и адекватно отразить содержание индексируемого документа, а набор ключевых слов по сути может выступать как вспомогательная аннотация документа. Например:

Бандиты, вымогавшие цветные металлы у директора «Росвнештерминала» В. Бурова, представились «кобзоновскими».

Ключевыми словами здесь будут:

Цветные металлы. Вымогательство. Контрабанда. ОПГ – «кобзоновская». Кобзон И. Буров В. Иваньков В. = Япончик. Захаров А. = Захар.

Данный пример хорошо показывает, как можно избежать перегруженности аннотации и при этом не допустить потери информации.

Наиболее сложной частью работы по вводу документа в базу данных является выбор ключевых слов при индексировании этого документа. Эта трудность усугубляется отсутствием какой-либо нормализации лексики, используемой при работе над базами данных. Особую сложность вызывает выбор ключевых слов, отражающих названия учреждений, общественных организаций и т. п. С одной стороны, очевидно, что одному объекту должно соответствовать одно название, но с другой стороны – вольное обращение журналистов с обозначением этих объектов (а выбор ключевых слов происходит на основании текста публикации) приводит к тому, что в базе данных одному объекту соответствует несколько названий.

Например:

Ассоциация правовой защиты и реабилитации инвалидов,

Ассоциация социально-правовой защиты и реабилитации инвалидов,

Ассоциация по реабилитации и социальной поддержке инвалидов.

Это затрудняет пользователю поиск и может снизить его полноту. Поэтому, когда пользователь дает запрос на поиск информации, он тоже должен учитывать, что одно и то же учреждение или организация могут быть зафиксированы под разными названиями. Принятие во внимание этого фактора поможет снизить информационные потери, а в некоторых случаях сведет их до минимума.

Иногда из публикаций не всегда понятно, идет ли речь об одном объекте или это различные объекты со сходными наименованиями. Например:

Антимонопольное территориальное управление,

Антимонопольное управление,

Антимонопольный комитет.

Проблемой является и выбор ключевых слов, соответствующих названиям культовых зданий.

Какое ключевое слово предпочесть создателю базы и пользователю из следующего списка:

Собор Св. Петра и Павла,

Собор Петра и Павла,

Петропавловский собор,

Собор Св. апостолов Петра и Павла.

Порой трудно идентифицировать культовые здания, когда в исходной публикации используется слово «храм», а не «церковь» или «собор». Например, если в документе употреблено словосочетание «Никольский храм», то неясно, идет ли речь о Никольском соборе на площади Коммунаров или о Никольской церкви на улице Марата.

Пользователю при формулировании запроса необходимо помнить и о многочисленных переименованиях, начало которым положила перестройка. Например:

Театр им. Ленинского комсомола, см. Балтийский дом.

Необходимо учитывать при составлении запроса и те случаи, когда имеется два общепринятых названия одного объекта. Например:

Центральный выставочный зал, см. Манеж.

Кунсткамера, см. Институт антропологии и этнографии им. Петра Великого.

В настоящее время идет работа по отбору и систематизации ключевых слов, используемых при создании базы данных, что, безусловно, облегчит пользователю доступ к информации. Выявляются параллельные ряды, существующие в словаре, и для каждого ряда синонимов выбирается слово-представитель – дескриптор. Предполагается, что после завершения этого этапа работ индексирование будет по-прежнему осуществляться на основе текста публикации, но не непосредственно: термин или словосочетание, выбранное в качестве ключевого слова, которое попадает в словарь, будет сравниваться с контролируемым словарем и войдет в документ в той форме, которая в этом словаре зафиксирована.

Для журналиста, независимо от места его работы, электронные базы данных по-прежнему представляют самый оперативный источник новейшей информации. К тому же это еще наиболее экономичный источник. Но почти для всех журналистов поиск в электронных базах данных остается двухступенчатым процессом, и проводят они его не самостоятельно. У журналиста появляется идея статьи, библиограф переводит эту идею в параметры поиска, отбирает базу (или базы) данных, осуществляет поиск и передает результаты журналисту, который смотрит, соответствуют ли они запросу.

Полнота и точность полученной информации зависит не только и не столько от квалификации библиографа, сколько от того, как грамотно был сформулирован запрос журналистом. Например, журналист исследует проблему бензиновых кризисов, которые время от времени будоражат рынок. Из разных источников известно, что рынок нефтепродуктов и нефтеносителей в Санкт-Петербурге контролируется, в частности, «тамбовским» преступным сообществом. Известно также, что сильной стороной баз данных является их способность объединять несоизмеримые понятия с тем, чтобы избавить журналиста и библиографа от необходимости искать иголку в стоге сена, – вся информация, не имеющая отношения к делу, при этом исключается. Для одной части уравнения подбираются такие ключевые слова, как организованная преступность , ОПГ тамбовская , для другой – нефть, бензин, бензиновый кризис . В результате журналист получает миллион ссылок на опубликованные статьи, не отвечающие введенному запросу. Почему так происходит? Да потому, что «бензин» может относиться к бензоколонкам, «нефть» – к нефтедобыче и нефтяным компаниям, а словосочетание «организованная преступность» даст десятки статей, посвященных различным криминальным группировкам. Чаще всего это случается, когда поиск ведется в полнотекстовой базе данных и не ограничен, скажем, заголовками или аннотациями статей. Для того чтобы минимизировать «информационный шум» и информационные потери в данном конкретном запросе, необходимо отсечь лишние ключевые слова, скрестив только лишь понятия «ОПГ тамбовская» и «бензиновый кризис».

При формулировании темы поиска для запроса журналисту следует особое внимание уделять используемой при этом лексике. Ведь языковые средства, которые мы, не задумываясь, применяем в обыденной речи, отличаются от нормативного словаря, с которым работает библиограф. Например, ваше ключевое слово «барахолка» – столь привычное и понятное, но имеющее в словаре помету «просторечное», – лучше заменить на «вещевой рынок», поскольку библиограф занес в словарь, скорее всего, именно этот термин.

Отобрав первичную и вторичную информацию по интересующей его теме и смежным темам из всех доступных (с разумными затратами времени и средств) источников, журналист может систематизировать ее и составить аналитическую справку.

Из книги Гражданский кодекс РФ. Часть первая автора Законы РФ

Статья 259. Собственность хозяйственного товарищества или кооператива, образованного на базе имущества крестьянского (фермерского) хозяйства 1. Членами крестьянского (фермерского) хозяйства на базе имущества хозяйства может быть создано хозяйственное товарищество или

Из книги Инкотермс 2000 автора Международная торговая палата

12. ОБЫЧАИ ПОРТА ИЛИ КОНКРЕТНОЙ ТОРГОВЛИ Так как Инкотермс предлагают комплект терминов для использования в различной сфере торговли и регионах, невозможно всегда точно сформулировать обязанности сторон. До некоторой степени поэтому необходимо ссылаться на обычай

Из книги Гражданский кодекс Российской Федерации. Части первая, вторая, третья и четвертая. Текст с изменениями и дополнениями на 10 мая 2009 года автора Коллектив авторов

СТАТЬЯ 259. Собственность хозяйственного товарищества или кооператива, образованного на базе имущества крестьянского (фермерского) хозяйства 1. Членами крестьянского (фермерского) хозяйства на базе имущества хозяйства может быть создано хозяйственное товарищество или

Из книги Правовые основы судебной медицины и судебной психиатрии в Российской Федерации: Сборник нормативных правовых актов автора Автор неизвестен

КОМПЛЕКТ ДОКУМЕНТОВ И ДАННЫХ, ПРЕДСТАВЛЯЕМЫХ ЗАЯВИТЕЛЕМ ДЛЯ ПРОВЕДЕНИЯ ЭКСПЕРТИЗЫ ЭФФЕКТИВНОСТИ И БЕЗОПАСНОСТИ ЛЕКАРСТВЕННОГО СРЕДСТВА 1. Заявление о проведении экспертизы лекарственного средства, в котором отражаются:– наименование и адрес (почтовый и

Из книги Гражданский кодекс Российской Федерации. Части первая, вторая, третья и четвертая. Текст с изменениями и дополнениями на 1 ноября 2009 г. автора Автор неизвестен

Статья 259. Собственность хозяйственного товарищества или кооператива, образованного на базе имущества крестьянского (фермерского) хозяйства 1. Членами крестьянского (фермерского) хозяйства на базе имущества хозяйства может быть создано хозяйственное товарищество или

Из книги Комментарий к Федеральному закону от 27 июля 2006г. N 152-ФЗ "О персональных данных" автора Петров Михаил Игоревич

Статья 9. Согласие субъекта персональных данных на обработку своих персональных данных Комментарий к статье 91. Комментируемая статья определяет порядок, условия и основания получения согласия субъекта персональных данных на их обработку. Законодатель подчеркивает, что

Из книги Криминология. Избранные лекции автора Антонян Юрий Миранович

Статья 16. Права субъектов персональных данных при принятии решений на основании исключительно автоматизированной обработки их персональных данных Комментарий к статье 161. Комментируемая статья определяет права субъектов персональных данных по отношению к принятию

Из книги Штрафы и пени. ГИБДД, кредиты, ЖКХ, налоги автора Садовая Людмила Леонидовна

Статья 21. Обязанности оператора по устранению нарушений законодательства, допущенных при обработке персональных данных, а также по уточнению, блокированию и уничтожению персональных данных Комментарий к статье 211. Положения комментируемой статьи определяют процедуру

Из книги Покупка и продажа квартиры: законодательство и практика, оформление и безопасность автора Брунгильд Аделина Геннадиевна

3. Роль конкретной жизненной ситуации в совершении преступления Слово «ситуация» происходит от латинского situs (положение, расположение) и означает совокупность, сочетание обстоятельств и условий, создающих те или иные отношения, определенную обстановку или положение.

Из книги Кодекс о Правонарушениях Республики Молдова в силе с 31.05.2009 автора Автор неизвестен

Если вас остановил инспектор ДПС и проверяет по базе неоплаченные штрафы 1. Инспектор ДПС не имеет права останавливать вас для проверки долгов в базе данных. Согласно «Административному регламенту», пришедшему на смену «Наставлению по работе ДПС», у инспектора ДПС есть

Из книги Ипотечный кредит: как получить квартиру автора Шевчук Денис Александрович

Примеры исчисления налога с имущества, переходящего в порядке наследования Пример №1 Налоговый орган 15 февраля 1995 г. получил от нотариуса сведения о том, что наследство открыто с 10 сентября 1994 г. наследником первой очереди. Стоимость наследованного имущества

Из книги Эй, инспектор, ты не прав! Все о том, как противостоять произволу ГИБДД на дорогах автора Нариньяни Алена

Примеры расчета налога с имущества, переходящего в порядке дарения Пример №1 Если в течение 1994 года физическим лицом от одного и того же дарителя, не состоящего с одаряемым в родственных отношениях, по нотариально удостоверенным договорам дарения получены три подарка (в

Из книги Банковское потребительское кредитование [Учебно-практическое пособие] автора Даниленко Светлана Александровна

Статья 74-1. Обработка персональных данных с нарушением законодательства о защите персональных данных (1) Несоблюдение требований по обеспечению безопасности персональных данных при их обработке в информационных системах персональных данных влечет наложение штрафа

Из книги автора

Примеры ипотечных программ Ипотека. Стандартная программа Условия

Из книги автора

Глава 6 ПРИМЕРЫ На примере нескольких типичных дорожно-транспортных происшествий хочется показать, как в несложных ситуациях из-за неграмотных действий водителя обстоятельства столкновения искажаются, и невиновный превращается в виновного.Наезд на стоящий

Из книги автора

Введение В настоящее время особой актуальностью обладают вопросы правового регулирования в сфере потребительского кредитования. Данный институт нуждается в глубоком научном изучении с целью дальнейшего совершенствовании его правового регулирования.Рынок

Индексирование документов - это задача присвоения им неких метаданных, позволяющих быстро классифицировать, сортировать и искать информацию в архиве без просмотра самого документа. Наиболее простой формой индексирования документов является ввод информации в карточку поиска документов, созданных по определенным критериям.

Пример карточки поиска

  • название документа;
  • дата документа;
  • вид документа, и т.д.

При этом критериев может быть сколько угодно.

Для чего это нужно

Развитие электронной формы хранения документов требовало новых подходов к индексированию данных ещё в конце 90-х годов прошлого века. Развитие поисковых систем и лингвистических методов дало массу возможностей для построения обратных словарей документов и других систем классификации и поиска на основе конкретных текстов, но инструментов внешней (экспертной) классификации разработано не было. В 1996 году были предприняты первые попытки разработки механизма автоматического индексирования документа на основании его содержания, то есть присвоения логических связок.

Решение для поиска документов

Эксперимент, основной целью которого было изучение возможностей индексирования документов, проводился на базе Российской Национальной Библиотеки. Основа алгоритма индексирования документов - выделение ключевых слов, характерных для специфической области, к которой относится документ.

Чем больше количество информации, тем сложнее найти конкретный документ. Для того что бы сократить время поиска того или иного документа, его нужно проиндексировать.С помощью индексирования документов, поиск информации в массиве из 1 миллиона листов занимает около 3 секунд. Без индексирования это могло бы занять целый месяц.

Грамотное индексирование

Если Вам нужно проиндексировать документы, лучше всего сделать это, обратившись к специалистам. Обращайтесь к нам, наши специалисты имеют большой опыт работы по вводу данных. Стоимость этих услуг всегда дешевле чем, заниматься этим без специальных навыков.

Индексирование документа обычно организуется через автоматическую обработку его текста и заполнение метаданных. Автоматическая обработка – полнотекстовое индексирование – заключается в преобразовании текста документа в набор слов. Причем обычно для слов сохраняется их позиция в документе, для обеспечения возможности поиска по словосочетаниям. Существуют два принципиально различных метода такого индексирования с учетом применяемых в дальнейшем методов поиска:

    бинарное индексирование – не зависит от языка документа по причине бинарной или словарной индексации;

    морфологическое индексирование – производится с учетом морфологии и семантики языка.

При бинарном индексировании (контекстно-независимом по классификации) поиск ведется на основе алгоритмов “нечеткого поиска”, т.е. поиска с ошибками. В этом случае допускается неполное (с заданным количеством ошибок в начале, середине и конце слова) совпадение слов с шаблоном. При втором методе индексации (контекстно-зависимом по классификации) слова преобразуются в словоформы с отсечением суффиксов и окончаний, что позволяет искать склонения и спряжения шаблонов.

Стандарта на метаданные на текущий момент не существует, но обычно они включают, по крайней мере, дату создания документа, его размер, возможно, тип и автора, краткое содержание – аннотацию и ключевые слова. Стоит отметить, что последние поля (аннотация и ключевые слова) на сегодняшний день заполняются вручную. При этом, если формат документа их предусматривает и автор их заполнил, то все неплохо, но практически всегда в реальных документах они отсутствуют. Поэтому существующие сегодня системы документооборота их обычно игнорируют по причине крайне дорогого и медленного их заполнения оператором, вводящим документы в систему.

Несмотря на несомненные плюсы, полнотекстовое индексирование в любом своем виде имеет и ряд существенных минусов :

    большое количество “мусора” в индексе , т.е. слов никак не характеризующих документ, а связывающих “ключевые” слова – а значит, возможное большое число нерелевантных документов при поиске при попадании шаблона на “мусор”;

    большой объем индекса за счет “мусора” – следовательно, расход ресурсов на его хранение и время на поиск по нему.

Эти недостатки обусловлены самой концепцией такого индексирования – сохранением всего текста за исключением “стоп-слов”. Действительно, с одной стороны наличие в индексе всех слов текста гарантирует его нахождение по любому из них, но с другой стороны встает вопрос: “А насколько это корректно?”. Предположим, мы имеем текст о компьютерных технологиях, в котором приведена пословица: “За двумя зайцами погонишься, ни одного не поймаешь”. При проведении поиска по слову “заяц” система выдаст этот документ, хотя он не будет иметь ни малейшего отношения к фауне. Наглядно иллюстрируют это приведенные чуть выше слова данного текста “предлог”, “союз” и “местоимение”.

Таким образом можно сделать вывод, что индексировать нужно “ключевые” слова документа , а не весь текст, чтобы гарантировать валидность результатов поиска. Только в отличие от документных систем первого поколения, в которых применялось ручное индексирование, данный процесс должен выполняться полностью автоматически в связи со значительно возросшим потоком документов. Все предпосылки в плане технических средств для этого есть. Кроме того, индексирование “ключевых” слов позволит значительно сократить объем индекса, а посему, и время поиска по нему.