O Efeito de Distração: Compreendendo Passagens Irrelevantes no RAG
The Distracting Effect: Understanding Irrelevant Passages in RAG
May 11, 2025
Autores: Chen Amiraz, Florin Cuconasu, Simone Filice, Zohar Karnin
cs.AI
Resumo
Um problema bem conhecido no Geração Aumentada por Recuperação (RAG) é que passagens recuperadas irrelevantes para a consulta às vezes distraem o LLM gerador de respostas, fazendo com que ele forneça uma resposta incorreta. Neste artigo, lançamos luz sobre essa questão central e formulamos o efeito distrativo de uma passagem em relação a uma consulta (e a um LLM). Fornecemos uma medida quantificável do efeito distrativo de uma passagem e demonstramos sua robustez entre diferentes LLMs.
Nossa pesquisa introduz métodos inovadores para identificar e utilizar passagens fortemente distrativas para melhorar os sistemas RAG. Ao ajustar finamente LLMs com essas passagens distrativas cuidadosamente selecionadas, alcançamos um aumento de até 7,5% na precisão das respostas em comparação com modelos ajustados em conjuntos de dados RAG convencionais. Nossa contribuição é dupla: primeiro, vamos além da simples classificação binária de passagens irrelevantes como completamente não relacionadas versus distrativas, e segundo, desenvolvemos e analisamos múltiplos métodos para encontrar passagens fortemente distrativas. Até onde sabemos, nenhuma outra pesquisa forneceu um framework tão abrangente para identificar e utilizar passagens fortemente distrativas.
English
A well-known issue with Retrieval Augmented Generation (RAG) is that
retrieved passages that are irrelevant to the query sometimes distract the
answer-generating LLM, causing it to provide an incorrect response. In this
paper, we shed light on this core issue and formulate the distracting effect of
a passage w.r.t. a query (and an LLM). We provide a quantifiable measure of the
distracting effect of a passage and demonstrate its robustness across LLMs.
Our research introduces novel methods for identifying and using hard
distracting passages to improve RAG systems. By fine-tuning LLMs with these
carefully selected distracting passages, we achieve up to a 7.5% increase in
answering accuracy compared to counterparts fine-tuned on conventional RAG
datasets. Our contribution is two-fold: first, we move beyond the simple binary
classification of irrelevant passages as either completely unrelated vs.
distracting, and second, we develop and analyze multiple methods for finding
hard distracting passages. To our knowledge, no other research has provided
such a comprehensive framework for identifying and utilizing hard distracting
passages.