Lijden RAG-systemen onder positionele vooringenomenheid?
Do RAG Systems Suffer From Positional Bias?
May 21, 2025
Auteurs: Florin Cuconasu, Simone Filice, Guy Horowitz, Yoelle Maarek, Fabrizio Silvestri
cs.AI
Samenvatting
Retrieval Augmented Generation verbetert de nauwkeurigheid van LLM's door passages die zijn opgehaald uit een externe corpus toe te voegen aan de LLM-prompt. Dit artikel onderzoekt hoe positionele bias - de neiging van LLM's om informatie verschillend te wegen op basis van de positie in de prompt - niet alleen de mogelijkheid van de LLM beïnvloedt om relevante passages te benutten, maar ook de vatbaarheid voor afleidende passages. Door uitgebreide experimenten op drie benchmarks tonen we aan dat state-of-the-art retrieval-pipelines, terwijl ze proberen relevante passages op te halen, systematisch sterk afleidende passages naar de toprangen brengen, waarbij meer dan 60% van de queries ten minste één sterk afleidende passage bevat onder de top-10 opgehaalde passages. Als gevolg hiervan is de impact van de positionele bias van de LLM, die in gecontroleerde settings vaak als zeer prominent wordt gerapporteerd door gerelateerde werken, in realistische scenario's eigenlijk marginaal, omdat zowel relevante als afleidende passages op hun beurt worden benadeeld. Inderdaad, onze bevindingen onthullen dat geavanceerde strategieën die proberen de passages te herschikken op basis van de positionele voorkeuren van de LLM niet beter presteren dan willekeurig shuffelen.
English
Retrieval Augmented Generation enhances LLM accuracy by adding passages
retrieved from an external corpus to the LLM prompt. This paper investigates
how positional bias - the tendency of LLMs to weight information differently
based on its position in the prompt - affects not only the LLM's capability to
capitalize on relevant passages, but also its susceptibility to distracting
passages. Through extensive experiments on three benchmarks, we show how
state-of-the-art retrieval pipelines, while attempting to retrieve relevant
passages, systematically bring highly distracting ones to the top ranks, with
over 60% of queries containing at least one highly distracting passage among
the top-10 retrieved passages. As a result, the impact of the LLM positional
bias, which in controlled settings is often reported as very prominent by
related works, is actually marginal in real scenarios since both relevant and
distracting passages are, in turn, penalized. Indeed, our findings reveal that
sophisticated strategies that attempt to rearrange the passages based on LLM
positional preferences do not perform better than random shuffling.