ChatPaper.aiChatPaper

Verloren in der Mitte: Wie Sprachmodelle lange Kontexte nutzen

Lost in the Middle: How Language Models Use Long Contexts

July 6, 2023
Autoren: Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, Percy Liang
cs.AI

Zusammenfassung

Während aktuelle Sprachmodelle die Fähigkeit besitzen, lange Kontexte als Eingabe zu verarbeiten, ist relativ wenig darüber bekannt, wie effektiv diese Modelle längere Kontexte nutzen. Wir analysieren die Leistung von Sprachmodellen in zwei Aufgaben, die das Identifizieren relevanter Informationen innerhalb ihrer Eingabekontexte erfordern: Multi-Dokument-Fragebeantwortung und Schlüssel-Wert-Abruf. Wir stellen fest, dass die Leistung oft am höchsten ist, wenn relevante Informationen am Anfang oder Ende des Eingabekontexts auftreten, und signifikant abnimmt, wenn Modelle auf relevante Informationen in der Mitte langer Kontexte zugreifen müssen. Darüber hinaus sinkt die Leistung erheblich, wenn der Eingabekontext länger wird, selbst bei explizit für lange Kontexte entwickelten Modellen. Unsere Analyse bietet ein besseres Verständnis dafür, wie Sprachmodelle ihren Eingabekontext nutzen, und liefert neue Evaluationsprotokolle für zukünftige Modelle mit langen Kontexten.
English
While recent language models have the ability to take long contexts as input, relatively little is known about how well the language models use longer context. We analyze language model performance on two tasks that require identifying relevant information within their input contexts: multi-document question answering and key-value retrieval. We find that performance is often highest when relevant information occurs at the beginning or end of the input context, and significantly degrades when models must access relevant information in the middle of long contexts. Furthermore, performance substantially decreases as the input context grows longer, even for explicitly long-context models. Our analysis provides a better understanding of how language models use their input context and provides new evaluation protocols for future long-context models.
PDF403December 15, 2024