Verloren in het Midden: Hoe Taalmodellen Lange Contexten Gebruiken
Lost in the Middle: How Language Models Use Long Contexts
July 6, 2023
Auteurs: Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, Percy Liang
cs.AI
Samenvatting
Hoewel recente taalmodelle in staat zijn om lange contexten als invoer te verwerken, is relatief weinig bekend over hoe goed taalmodelle langere contexten gebruiken. We analyseren de prestaties van taalmodelle op twee taken die vereisen dat relevante informatie binnen hun invoercontexten wordt geïdentificeerd: vraagbeantwoording over meerdere documenten en sleutel-waarde-retrieval. We constateren dat de prestaties vaak het hoogst zijn wanneer relevante informatie aan het begin of het einde van de invoercontext voorkomt, en aanzienlijk verslechteren wanneer modellen relevante informatie in het midden van lange contexten moeten benaderen. Bovendien nemen de prestaties aanzienlijk af naarmate de invoercontext langer wordt, zelfs voor expliciet ontworpen lange-contextmodellen. Onze analyse biedt een beter inzicht in hoe taalmodelle hun invoercontext gebruiken en levert nieuwe evaluatieprotocollen op voor toekomstige lange-contextmodellen.
English
While recent language models have the ability to take long contexts as input,
relatively little is known about how well the language models use longer
context. We analyze language model performance on two tasks that require
identifying relevant information within their input contexts: multi-document
question answering and key-value retrieval. We find that performance is often
highest when relevant information occurs at the beginning or end of the input
context, and significantly degrades when models must access relevant
information in the middle of long contexts. Furthermore, performance
substantially decreases as the input context grows longer, even for explicitly
long-context models. Our analysis provides a better understanding of how
language models use their input context and provides new evaluation protocols
for future long-context models.