Verloren in het Midden: Hoe Taalmodellen Lange Contexten Gebruiken

Samenvatting

Hoewel recente taalmodelle in staat zijn om lange contexten als invoer te verwerken, is relatief weinig bekend over hoe goed taalmodelle langere contexten gebruiken. We analyseren de prestaties van taalmodelle op twee taken die vereisen dat relevante informatie binnen hun invoercontexten wordt geïdentificeerd: vraagbeantwoording over meerdere documenten en sleutel-waarde-retrieval. We constateren dat de prestaties vaak het hoogst zijn wanneer relevante informatie aan het begin of het einde van de invoercontext voorkomt, en aanzienlijk verslechteren wanneer modellen relevante informatie in het midden van lange contexten moeten benaderen. Bovendien nemen de prestaties aanzienlijk af naarmate de invoercontext langer wordt, zelfs voor expliciet ontworpen lange-contextmodellen. Onze analyse biedt een beter inzicht in hoe taalmodelle hun invoercontext gebruiken en levert nieuwe evaluatieprotocollen op voor toekomstige lange-contextmodellen.

English

While recent language models have the ability to take long contexts as input, relatively little is known about how well the language models use longer context. We analyze language model performance on two tasks that require identifying relevant information within their input contexts: multi-document question answering and key-value retrieval. We find that performance is often highest when relevant information occurs at the beginning or end of the input context, and significantly degrades when models must access relevant information in the middle of long contexts. Furthermore, performance substantially decreases as the input context grows longer, even for explicitly long-context models. Our analysis provides a better understanding of how language models use their input context and provides new evaluation protocols for future long-context models.

Verloren in het Midden: Hoe Taalmodellen Lange Contexten Gebruiken

Lost in the Middle: How Language Models Use Long Contexts

Samenvatting

Support