Gevonden in het midden: Het kalibreren van positionele aandachtbias verbetert het gebruik van lange contexten
Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization
June 23, 2024
Auteurs: Cheng-Yu Hsieh, Yung-Sung Chuang, Chun-Liang Li, Zifeng Wang, Long T. Le, Abhishek Kumar, James Glass, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister
cs.AI
Samenvatting
Grote taalmodellen (LLMs), zelfs wanneer ze specifiek zijn getraind om lange invoercontexten te verwerken, hebben moeite om relevante informatie die zich in het midden van hun invoer bevindt, vast te leggen. Dit fenomeen staat bekend als het lost-in-the-middle-probleem. In dit werk doen we drie bijdragen. Ten eerste streven we ernaar de factoren te begrijpen die dit fenomeen veroorzaken. Hierbij leggen we een verband tussen lost-in-the-middle en de intrinsieke aandachtbias van LLMs: LLMs vertonen een U-vormige aandachtbias waarbij de tokens aan het begin en het einde van de invoer meer aandacht krijgen, ongeacht hun relevantie. Ten tweede verminderen we deze positionele bias door een kalibratiemechanisme, found-in-the-middle, dat het model in staat stelt om contexten trouw te volgen volgens hun relevantie, zelfs wanneer deze zich in het midden bevinden. Ten derde laten we zien dat found-in-the-middle niet alleen betere prestaties levert in het lokaliseren van relevante informatie binnen een lange context, maar uiteindelijk ook leidt tot verbeterde prestaties bij retrieval-augmented generation (RAG) over verschillende taken, waarbij bestaande methoden met tot wel 15 procentpunten worden overtroffen. Deze bevindingen openen toekomstige richtingen in het begrijpen van de aandachtbias van LLMs en de mogelijke gevolgen daarvan.
English
Large language models (LLMs), even when specifically trained to process long
input contexts, struggle to capture relevant information located in the middle
of their input. This phenomenon has been known as the lost-in-the-middle
problem. In this work, we make three contributions. First, we set out to
understand the factors that cause this phenomenon. In doing so, we establish a
connection between lost-in-the-middle to LLMs' intrinsic attention bias: LLMs
exhibit a U-shaped attention bias where the tokens at the beginning and at the
end of its input receive higher attention, regardless of their relevance.
Second, we mitigate this positional bias through a calibration mechanism,
found-in-the-middle, that allows the model to attend to contexts faithfully
according to their relevance, even though when they are in the middle. Third,
we show found-in-the-middle not only achieves better performance in locating
relevant information within a long context, but also eventually leads to
improved retrieval-augmented generation (RAG) performance across various tasks,
outperforming existing methods by up to 15 percentage points. These findings
open up future directions in understanding LLM attention bias and its potential
consequences.