Bewertung von Sprachmodellkontextfenstern: Ein "Arbeitsgedächtnis"-Test und Korrektur zur Inferenzzeit
Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction
July 4, 2024
Autoren: Amanda Dsouza, Christopher Glaze, Changho Shin, Frederic Sala
cs.AI
Zusammenfassung
Große Sprachmodelle werden prominent in realen Anwendungen eingesetzt und sind oft damit beauftragt, über große Mengen von Dokumenten zu argumentieren. Eine aufregende Entwicklung in diesem Bereich sind Modelle, die erweiterte Kontextfähigkeiten aufweisen und einige über mehr als 2 Millionen Tokens verfügen. Die Fähigkeiten solcher Modelle mit langem Kontext bleiben in Produktionssystemen unsicher, was die Notwendigkeit unterstreicht, ihre Leistungsfähigkeit an realen Anwendungsfällen zu überprüfen. Wir begegnen dieser Herausforderung, indem wir SWiM vorschlagen, ein Bewertungsrahmen, der die Einschränkungen herkömmlicher Tests anspricht. Bei der Prüfung des Rahmens an acht Modellen mit langem Kontext stellen wir fest, dass selbst starke Modelle wie GPT-4 und Claude 3 Opus an Leistung einbüßen, wenn Informationen in der Mitte des Kontextfensters vorhanden sind (Lost-in-the-Middle-Effekt). Darüber hinaus schlagen wir neben unserem Benchmark das medoide Abstimmen vor, ein einfacher, aber effektiver trainingsfreier Ansatz, der dazu beiträgt, diesen Effekt zu mildern, indem Antworten einige Male generiert werden, wobei jedes Mal Dokumente im Kontext zufällig umgestellt und die medoide Antwort ausgewählt wird. Wir bewerten das medoide Abstimmen bei Einzeldokument-Frage-Antwort-Aufgaben und erzielen eine bis zu 24%ige Steigerung der Genauigkeit.
English
Large language models are prominently used in real-world applications, often
tasked with reasoning over large volumes of documents. An exciting development
in this space is models boasting extended context capabilities, with some
accommodating over 2 million tokens. Such long context model capabilities
remain uncertain in production systems, motivating the need to benchmark their
performance on real world use cases. We address this challenge by proposing
SWiM, an evaluation framework that addresses the limitations of standard tests.
Testing the framework on eight long context models, we find that even strong
models such as GPT-4 and Claude 3 Opus degrade in performance when information
is present in the middle of the context window (lost-in-the-middle effect).
Next, in addition to our benchmark, we propose medoid voting, a simple, but
effective training-free approach that helps alleviate this effect, by
generating responses a few times, each time randomly permuting documents in the
context, and selecting the medoid answer. We evaluate medoid voting on single
document QA tasks, achieving up to a 24% lift in accuracy.Summary
AI-Generated Summary