HtmlRAG: HTML is Beter dan Plattekst voor het Modelleren van Opgehaalde Kennis in RAG SystemenHtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge
in RAG Systems
Retrieval-Augmented Generation (RAG) heeft aangetoond de kennisvaardigheden te verbeteren en het hallucinatieprobleem van LLM's te verlichten. Het web is een belangrijke bron van externe kennis die wordt gebruikt in RAG-systemen, en veel commerciële systemen zoals ChatGPT en Perplexity hebben webzoekmachines gebruikt als hun belangrijkste ophaalsystemen. Typisch halen dergelijke RAG-systemen zoekresultaten op, downloaden ze HTML-bronnen van de resultaten, en extraheren ze vervolgens platte tekst uit de HTML-bronnen. Platte tekstdocumenten of fragmenten worden gevoed aan de LLM's om de generatie aan te vullen. Echter gaat veel van de structurele en semantische informatie inherent aan HTML, zoals koppen en tabelstructuren, verloren tijdens dit op platte tekst gebaseerde RAG-proces. Om dit probleem te verlichten, stellen we HtmlRAG voor, dat HTML gebruikt in plaats van platte tekst als het formaat van opgehaalde kennis in RAG. Wij geloven dat HTML beter is dan platte tekst in het modelleren van kennis in externe documenten, en de meeste LLM's hebben robuuste capaciteiten om HTML te begrijpen. Echter, het gebruik van HTML brengt nieuwe uitdagingen met zich mee. HTML bevat extra inhoud zoals tags, JavaScript en CSS-specificaties, die extra invoertokens en ruis naar het RAG-systeem brengen. Om dit probleem aan te pakken, stellen we HTML-schoonmaak-, compressie- en snoeistrategieën voor, om de HTML te verkorten terwijl het verlies van informatie wordt geminimaliseerd. Specifiek ontwerpen we een tweestaps blok-boom-gebaseerde snoeimethode die nutteloze HTML-blokken snoeit en alleen het relevante deel van de HTML behoudt. Experimenten op zes QA-datasets bevestigen de superioriteit van het gebruik van HTML in RAG-systemen.