Trouvé au milieu : Calibrer le biais d'attention positionnelle améliore l'utilisation des contextes longs
Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization
June 23, 2024
Auteurs: Cheng-Yu Hsieh, Yung-Sung Chuang, Chun-Liang Li, Zifeng Wang, Long T. Le, Abhishek Kumar, James Glass, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister
cs.AI
Résumé
Les grands modèles de langage (LLM), même lorsqu'ils sont spécifiquement entraînés à traiter des contextes d'entrée longs, peinent à capturer les informations pertinentes situées au milieu de leur entrée. Ce phénomène est connu sous le nom de problème de "perte au milieu". Dans ce travail, nous apportons trois contributions. Premièrement, nous cherchons à comprendre les facteurs qui causent ce phénomène. Ce faisant, nous établissons un lien entre la "perte au milieu" et le biais d'attention intrinsèque des LLM : les LLM présentent un biais d'attention en forme de U où les tokens au début et à la fin de leur entrée reçoivent une attention plus élevée, indépendamment de leur pertinence. Deuxièmement, nous atténuons ce biais positionnel grâce à un mécanisme de calibration, appelé "trouvé au milieu", qui permet au modèle de prêter attention aux contextes de manière fidèle selon leur pertinence, même lorsqu'ils se situent au milieu. Troisièmement, nous montrons que "trouvé au milieu" non seulement améliore les performances dans la localisation des informations pertinentes au sein d'un contexte long, mais conduit également à une amélioration des performances de génération augmentée par récupération (RAG) sur diverses tâches, surpassant les méthodes existantes jusqu'à 15 points de pourcentage. Ces résultats ouvrent de nouvelles perspectives pour comprendre le biais d'attention des LLM et ses conséquences potentielles.
English
Large language models (LLMs), even when specifically trained to process long
input contexts, struggle to capture relevant information located in the middle
of their input. This phenomenon has been known as the lost-in-the-middle
problem. In this work, we make three contributions. First, we set out to
understand the factors that cause this phenomenon. In doing so, we establish a
connection between lost-in-the-middle to LLMs' intrinsic attention bias: LLMs
exhibit a U-shaped attention bias where the tokens at the beginning and at the
end of its input receive higher attention, regardless of their relevance.
Second, we mitigate this positional bias through a calibration mechanism,
found-in-the-middle, that allows the model to attend to contexts faithfully
according to their relevance, even though when they are in the middle. Third,
we show found-in-the-middle not only achieves better performance in locating
relevant information within a long context, but also eventually leads to
improved retrieval-augmented generation (RAG) performance across various tasks,
outperforming existing methods by up to 15 percentage points. These findings
open up future directions in understanding LLM attention bias and its potential
consequences.Summary
AI-Generated Summary