In der Mitte gefunden: Die Kalibrierung des Positionsaufmerksamkeitsfehlers verbessert die Nutzung von langem Kontext.
Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization
June 23, 2024
Autoren: Cheng-Yu Hsieh, Yung-Sung Chuang, Chun-Liang Li, Zifeng Wang, Long T. Le, Abhishek Kumar, James Glass, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs), selbst wenn sie speziell darauf trainiert sind, lange Eingangskontexte zu verarbeiten, haben Schwierigkeiten, relevante Informationen zu erfassen, die sich in der Mitte ihres Eingangs befinden. Dieses Phänomen ist als das "Lost-in-the-Middle"-Problem bekannt. In dieser Arbeit leisten wir drei Beiträge. Erstens versuchen wir, die Faktoren zu verstehen, die dieses Phänomen verursachen. Dabei stellen wir eine Verbindung zwischen "Lost-in-the-Middle" und der intrinsischen Aufmerksamkeitsverzerrung von LLMs her: LLMs zeigen eine U-förmige Aufmerksamkeitsverzerrung, bei der die Tokens am Anfang und am Ende ihres Eingangs unabhängig von ihrer Relevanz mehr Aufmerksamkeit erhalten. Zweitens mildern wir diese positionale Verzerrung durch einen Kalibrierungsmechanismus, "Found-in-the-Middle", der es dem Modell ermöglicht, Kontexte gemäß ihrer Relevanz treu zu beachten, auch wenn sie sich in der Mitte befinden. Drittens zeigen wir, dass "Found-in-the-Middle" nicht nur eine bessere Leistung bei der Lokalisierung relevanter Informationen innerhalb eines langen Kontexts erzielt, sondern letztendlich auch zu einer verbesserten Leistung bei der abrufgestützten Generierung (RAG) über verschiedene Aufgaben hinweg führt und bestehende Methoden um bis zu 15 Prozentpunkte übertrifft. Diese Erkenntnisse eröffnen zukünftige Richtungen im Verständnis der Aufmerksamkeitsverzerrung von LLMs und ihrer potenziellen Konsequenzen.
English
Large language models (LLMs), even when specifically trained to process long
input contexts, struggle to capture relevant information located in the middle
of their input. This phenomenon has been known as the lost-in-the-middle
problem. In this work, we make three contributions. First, we set out to
understand the factors that cause this phenomenon. In doing so, we establish a
connection between lost-in-the-middle to LLMs' intrinsic attention bias: LLMs
exhibit a U-shaped attention bias where the tokens at the beginning and at the
end of its input receive higher attention, regardless of their relevance.
Second, we mitigate this positional bias through a calibration mechanism,
found-in-the-middle, that allows the model to attend to contexts faithfully
according to their relevance, even though when they are in the middle. Third,
we show found-in-the-middle not only achieves better performance in locating
relevant information within a long context, but also eventually leads to
improved retrieval-augmented generation (RAG) performance across various tasks,
outperforming existing methods by up to 15 percentage points. These findings
open up future directions in understanding LLM attention bias and its potential
consequences.Summary
AI-Generated Summary