Verloren in der Mitte: Wie Sprachmodelle lange Kontexte nutzen
Lost in the Middle: How Language Models Use Long Contexts
July 6, 2023
Autoren: Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, Percy Liang
cs.AI
Zusammenfassung
Während aktuelle Sprachmodelle die Fähigkeit besitzen, lange Kontexte als Eingabe zu verarbeiten, ist relativ wenig darüber bekannt, wie effektiv diese Modelle längere Kontexte nutzen. Wir analysieren die Leistung von Sprachmodellen in zwei Aufgaben, die das Identifizieren relevanter Informationen innerhalb ihrer Eingabekontexte erfordern: Multi-Dokument-Fragebeantwortung und Schlüssel-Wert-Abruf. Wir stellen fest, dass die Leistung oft am höchsten ist, wenn relevante Informationen am Anfang oder Ende des Eingabekontexts auftreten, und signifikant abnimmt, wenn Modelle auf relevante Informationen in der Mitte langer Kontexte zugreifen müssen. Darüber hinaus sinkt die Leistung erheblich, wenn der Eingabekontext länger wird, selbst bei explizit für lange Kontexte entwickelten Modellen. Unsere Analyse bietet ein besseres Verständnis dafür, wie Sprachmodelle ihren Eingabekontext nutzen, und liefert neue Evaluationsprotokolle für zukünftige Modelle mit langen Kontexten.
English
While recent language models have the ability to take long contexts as input,
relatively little is known about how well the language models use longer
context. We analyze language model performance on two tasks that require
identifying relevant information within their input contexts: multi-document
question answering and key-value retrieval. We find that performance is often
highest when relevant information occurs at the beginning or end of the input
context, and significantly degrades when models must access relevant
information in the middle of long contexts. Furthermore, performance
substantially decreases as the input context grows longer, even for explicitly
long-context models. Our analysis provides a better understanding of how
language models use their input context and provides new evaluation protocols
for future long-context models.