HtmlRAG : HTML est meilleur que le texte brut pour modéliser les connaissances récupérées dans les systÚmes RAGHtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge
in RAG Systems
La GĂ©nĂ©ration AugmentĂ©e par RĂ©cupĂ©ration (RAG) a Ă©tĂ© dĂ©montrĂ©e comme amĂ©liorant les capacitĂ©s de connaissance et attĂ©nuant le problĂšme d'hallucination des LLM. Le Web est une source majeure de connaissances externes utilisĂ©e dans les systĂšmes RAG, et de nombreux systĂšmes commerciaux tels que ChatGPT et Perplexity ont utilisĂ© des moteurs de recherche Web comme principaux systĂšmes de rĂ©cupĂ©ration. Typiquement, de tels systĂšmes RAG rĂ©cupĂšrent les rĂ©sultats de recherche, tĂ©lĂ©chargent les sources HTML des rĂ©sultats, puis extraient des textes bruts des sources HTML. Les documents ou fragments de texte brut sont ensuite introduits dans les LLM pour augmenter la gĂ©nĂ©ration. Cependant, une grande partie des informations structurelles et sĂ©mantiques inhĂ©rentes Ă HTML, telles que les en-tĂȘtes et les structures de table, sont perdues lors de ce processus RAG basĂ© sur du texte brut. Pour attĂ©nuer ce problĂšme, nous proposons HtmlRAG, qui utilise HTML au lieu de texte brut comme format de connaissances rĂ©cupĂ©rĂ©es en RAG. Nous pensons qu'HTML est meilleur que le texte brut pour modĂ©liser les connaissances dans les documents externes, et la plupart des LLM possĂšdent des capacitĂ©s robustes pour comprendre HTML. Cependant, l'utilisation d'HTML prĂ©sente de nouveaux dĂ©fis. HTML contient du contenu supplĂ©mentaire tel que des balises, du JavaScript et des spĂ©cifications CSS, qui ajoutent des jetons d'entrĂ©e supplĂ©mentaires et du bruit au systĂšme RAG. Pour rĂ©soudre ce problĂšme, nous proposons des stratĂ©gies de nettoyage, de compression et d'Ă©lagage d'HTML, pour raccourcir l'HTML tout en minimisant la perte d'informations. Plus prĂ©cisĂ©ment, nous concevons une mĂ©thode d'Ă©lagage en deux Ă©tapes basĂ©e sur des blocs d'arbres qui Ă©limine les blocs HTML inutiles et ne conserve que la partie pertinente de l'HTML. Des expĂ©riences sur six ensembles de donnĂ©es de questions-rĂ©ponses confirment la supĂ©rioritĂ© de l'utilisation d'HTML dans les systĂšmes RAG.