HtmlRAG: HTML лучше, чем обычный текст, для моделирования извлеченных знаний в системах RAGHtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge
in RAG Systems
Использование метода Генерации с извлечением информации (RAG) показало улучшение возможностей по работе с знаниями и смягчение проблемы галлюцинаций в языковых моделях с ограниченной памятью. Веб является основным источником внешних знаний, используемых в системах RAG, и многие коммерческие системы, такие как ChatGPT и Perplexity, используют поисковые системы в Интернете в качестве основных систем извлечения. Обычно такие системы RAG извлекают результаты поиска, загружают HTML-исходники результатов, а затем извлекают обычный текст из HTML-исходников. Документы в виде обычного текста или их фрагменты подаются на вход языковым моделям с ограниченной памятью для улучшения генерации. Однако во время этого процесса RAG на основе обычного текста теряется значительная часть структурной и семантической информации, содержащейся в HTML, такой как заголовки и таблицы. Для решения этой проблемы мы предлагаем HtmlRAG, который использует HTML вместо обычного текста в качестве формата извлеченных знаний в RAG. Мы считаем, что HTML лучше подходит для моделирования знаний во внешних документах, и большинство языковых моделей обладают надежными возможностями понимания HTML. Однако использование HTML представляет новые вызовы. HTML содержит дополнительное содержимое, такое как теги, JavaScript и CSS-спецификации, которые добавляют дополнительные токены и шум в систему RAG. Для решения этой проблемы мы предлагаем стратегии очистки, сжатия и обрезки HTML, чтобы сократить объем HTML, минимизируя потерю информации. В частности, мы разработали двухэтапный метод обрезки на основе блокового дерева, который удаляет бесполезные блоки HTML и сохраняет только соответствующую часть HTML. Эксперименты на шести наборах данных для вопросно-ответных систем подтверждают превосходство использования HTML в системах RAG.