HtmlRAG: HTML é Melhor do que Texto Simples para Modelar Conhecimento Recuperado em Sistemas RAGHtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge
in RAG Systems
A Geração com Recuperação Aprimorada (RAG) tem demonstrado melhorar as capacidades de conhecimento e aliviar o problema de alucinação dos LLMs. A Web é uma fonte importante de conhecimento externo usada em sistemas RAG, e muitos sistemas comerciais como ChatGPT e Perplexity têm utilizado mecanismos de busca na Web como seus principais sistemas de recuperação. Tipicamente, tais sistemas RAG recuperam resultados de busca, baixam fontes HTML dos resultados e então extraem textos simples das fontes HTML. Documentos ou trechos de texto simples são alimentados nos LLMs para aumentar a geração. No entanto, grande parte da informação estrutural e semântica inerente ao HTML, como títulos e estruturas de tabelas, é perdida durante esse processo RAG baseado em texto simples. Para aliviar esse problema, propomos o HtmlRAG, que utiliza HTML em vez de texto simples como formato de conhecimento recuperado em RAG. Acreditamos que o HTML é melhor que o texto simples para modelar conhecimento em documentos externos, e a maioria dos LLMs possui capacidades robustas para entender HTML. No entanto, utilizar HTML apresenta novos desafios. O HTML contém conteúdo adicional como tags, JavaScript e especificações CSS, que trazem tokens de entrada adicionais e ruído ao sistema RAG. Para abordar essa questão, propomos estratégias de limpeza, compressão e poda de HTML, para encurtar o HTML minimizando a perda de informação. Especificamente, projetamos um método de poda baseado em árvore de blocos em dois passos que poda blocos HTML inúteis e mantém apenas a parte relevante do HTML. Experimentos em seis conjuntos de dados de perguntas e respostas confirmam a superioridade do uso de HTML em sistemas RAG.