I Sistemi RAG Soffrono di Bias Posizionale?
Do RAG Systems Suffer From Positional Bias?
May 21, 2025
Autori: Florin Cuconasu, Simone Filice, Guy Horowitz, Yoelle Maarek, Fabrizio Silvestri
cs.AI
Abstract
La Generazione Aumentata dal Recupero migliora l'accuratezza dei Modelli Linguistici di Grande Dimensione (LLM) aggiungendo passaggi recuperati da un corpus esterno al prompt dell'LLM. Questo articolo indaga come il bias posizionale - la tendenza degli LLM a valutare diversamente le informazioni in base alla loro posizione nel prompt - influenzi non solo la capacità dell'LLM di sfruttare passaggi rilevanti, ma anche la sua suscettibilità a passaggi distraenti. Attraverso esperimenti estesi su tre benchmark, dimostriamo come le pipeline di recupero all'avanguardia, pur tentando di recuperare passaggi rilevanti, portino sistematicamente passaggi altamente distraenti ai primi posti, con oltre il 60% delle query contenenti almeno un passaggio altamente distraente tra i primi 10 passaggi recuperati. Di conseguenza, l'impatto del bias posizionale dell'LLM, che in contesti controllati viene spesso riportato come molto significativo da lavori correlati, è in realtà marginale negli scenari reali poiché sia i passaggi rilevanti che quelli distraenti vengono, a loro volta, penalizzati. In effetti, i nostri risultati rivelano che strategie sofisticate che tentano di riordinare i passaggi in base alle preferenze posizionali dell'LLM non performano meglio di un ordinamento casuale.
English
Retrieval Augmented Generation enhances LLM accuracy by adding passages
retrieved from an external corpus to the LLM prompt. This paper investigates
how positional bias - the tendency of LLMs to weight information differently
based on its position in the prompt - affects not only the LLM's capability to
capitalize on relevant passages, but also its susceptibility to distracting
passages. Through extensive experiments on three benchmarks, we show how
state-of-the-art retrieval pipelines, while attempting to retrieve relevant
passages, systematically bring highly distracting ones to the top ranks, with
over 60% of queries containing at least one highly distracting passage among
the top-10 retrieved passages. As a result, the impact of the LLM positional
bias, which in controlled settings is often reported as very prominent by
related works, is actually marginal in real scenarios since both relevant and
distracting passages are, in turn, penalized. Indeed, our findings reveal that
sophisticated strategies that attempt to rearrange the passages based on LLM
positional preferences do not perform better than random shuffling.