ChatPaper.aiChatPaper

Les systèmes RAG souffrent-ils de biais positionnel ?

Do RAG Systems Suffer From Positional Bias?

May 21, 2025
Auteurs: Florin Cuconasu, Simone Filice, Guy Horowitz, Yoelle Maarek, Fabrizio Silvestri
cs.AI

Résumé

La Génération Augmentée par Récupération améliore la précision des LLM en ajoutant des passages récupérés d'un corpus externe à l'invite du LLM. Cet article étudie comment le biais positionnel - la tendance des LLM à pondérer différemment l'information en fonction de sa position dans l'invite - affecte non seulement la capacité du LLM à tirer parti des passages pertinents, mais aussi sa vulnérabilité aux passages distrayants. À travers des expériences approfondies sur trois benchmarks, nous montrons comment les pipelines de récupération de pointe, tout en cherchant à récupérer des passages pertinents, ramènent systématiquement des passages hautement distrayants aux premiers rangs, avec plus de 60 % des requêtes contenant au moins un passage très distrayant parmi les 10 premiers passages récupérés. En conséquence, l'impact du biais positionnel des LLM, qui dans des contextes contrôlés est souvent rapporté comme très marqué par les travaux connexes, est en réalité marginal dans des scénarios réels puisque les passages pertinents et distrayants sont, à leur tour, pénalisés. En effet, nos résultats révèlent que des stratégies sophistiquées visant à réorganiser les passages en fonction des préférences positionnelles des LLM ne performent pas mieux qu'un mélange aléatoire.
English
Retrieval Augmented Generation enhances LLM accuracy by adding passages retrieved from an external corpus to the LLM prompt. This paper investigates how positional bias - the tendency of LLMs to weight information differently based on its position in the prompt - affects not only the LLM's capability to capitalize on relevant passages, but also its susceptibility to distracting passages. Through extensive experiments on three benchmarks, we show how state-of-the-art retrieval pipelines, while attempting to retrieve relevant passages, systematically bring highly distracting ones to the top ranks, with over 60% of queries containing at least one highly distracting passage among the top-10 retrieved passages. As a result, the impact of the LLM positional bias, which in controlled settings is often reported as very prominent by related works, is actually marginal in real scenarios since both relevant and distracting passages are, in turn, penalized. Indeed, our findings reveal that sophisticated strategies that attempt to rearrange the passages based on LLM positional preferences do not perform better than random shuffling.

Summary

AI-Generated Summary

PDF12May 28, 2025