HtmlRAG: HTML ist besser als Klartext zur Modellierung von abgerufenem Wissen in RAG-SystemenHtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge
in RAG Systems
Die Retrieval-gestützte Generierung (RAG) hat sich als Verbesserung der Wissensfähigkeiten erwiesen und das Halluzinationsproblem von LLMs gelindert. Das Web ist eine wichtige Quelle externen Wissens, die in RAG-Systemen verwendet wird, und viele kommerzielle Systeme wie ChatGPT und Perplexity haben Web-Suchmaschinen als ihre Hauptretrieval-Systeme genutzt. Typischerweise rufen solche RAG-Systeme Suchergebnisse ab, laden die HTML-Quellen der Ergebnisse herunter und extrahieren dann Klartexte aus den HTML-Quellen. Klartextdokumente oder -abschnitte werden den LLMs zugeführt, um die Generierung zu ergänzen. Allerdings geht ein Großteil der strukturellen und semantischen Informationen, die in HTML enthalten sind, wie Überschriften und Tabellenstrukturen, während dieses klartextbasierten RAG-Prozesses verloren. Um dieses Problem zu lindern, schlagen wir HtmlRAG vor, das HTML anstelle von Klartext als das Format des abgerufenen Wissens in RAG verwendet. Wir sind der Meinung, dass HTML besser als Klartext geeignet ist, um Wissen in externen Dokumenten zu modellieren, und die meisten LLMs verfügen über robuste Fähigkeiten, um HTML zu verstehen. Die Verwendung von HTML bringt jedoch neue Herausforderungen mit sich. HTML enthält zusätzliche Inhalte wie Tags, JavaScript und CSS-Spezifikationen, die zusätzliche Eingabetoken und Rauschen in das RAG-System bringen. Um dieses Problem anzugehen, schlagen wir HTML-Reinigungs-, Komprimierungs- und Beschneidungsstrategien vor, um das HTML zu verkürzen und den Informationsverlust zu minimieren. Speziell entwerfen wir eine zweistufige blockbaum-basierte Beschneidungsmethode, die nutzlose HTML-Blöcke beschneidet und nur den relevanten Teil des HTML beibehält. Experimente mit sechs QA-Datensätzen bestätigen die Überlegenheit der Verwendung von HTML in RAG-Systemen.