Bewertung von Sprachmodellkontextfenstern: Ein "Arbeitsgedächtnis"-Test und Korrektur zur Inferenzzeit

papers.abstract

Große Sprachmodelle werden prominent in realen Anwendungen eingesetzt und sind oft damit beauftragt, über große Mengen von Dokumenten zu argumentieren. Eine aufregende Entwicklung in diesem Bereich sind Modelle, die erweiterte Kontextfähigkeiten aufweisen und einige über mehr als 2 Millionen Tokens verfügen. Die Fähigkeiten solcher Modelle mit langem Kontext bleiben in Produktionssystemen unsicher, was die Notwendigkeit unterstreicht, ihre Leistungsfähigkeit an realen Anwendungsfällen zu überprüfen. Wir begegnen dieser Herausforderung, indem wir SWiM vorschlagen, ein Bewertungsrahmen, der die Einschränkungen herkömmlicher Tests anspricht. Bei der Prüfung des Rahmens an acht Modellen mit langem Kontext stellen wir fest, dass selbst starke Modelle wie GPT-4 und Claude 3 Opus an Leistung einbüßen, wenn Informationen in der Mitte des Kontextfensters vorhanden sind (Lost-in-the-Middle-Effekt). Darüber hinaus schlagen wir neben unserem Benchmark das medoide Abstimmen vor, ein einfacher, aber effektiver trainingsfreier Ansatz, der dazu beiträgt, diesen Effekt zu mildern, indem Antworten einige Male generiert werden, wobei jedes Mal Dokumente im Kontext zufällig umgestellt und die medoide Antwort ausgewählt wird. Wir bewerten das medoide Abstimmen bei Einzeldokument-Frage-Antwort-Aufgaben und erzielen eine bis zu 24%ige Steigerung der Genauigkeit.

English

Large language models are prominently used in real-world applications, often tasked with reasoning over large volumes of documents. An exciting development in this space is models boasting extended context capabilities, with some accommodating over 2 million tokens. Such long context model capabilities remain uncertain in production systems, motivating the need to benchmark their performance on real world use cases. We address this challenge by proposing SWiM, an evaluation framework that addresses the limitations of standard tests. Testing the framework on eight long context models, we find that even strong models such as GPT-4 and Claude 3 Opus degrade in performance when information is present in the middle of the context window (lost-in-the-middle effect). Next, in addition to our benchmark, we propose medoid voting, a simple, but effective training-free approach that helps alleviate this effect, by generating responses a few times, each time randomly permuting documents in the context, and selecting the medoid answer. We evaluate medoid voting on single document QA tasks, achieving up to a 24% lift in accuracy.

Bewertung von Sprachmodellkontextfenstern: Ein "Arbeitsgedächtnis"-Test und Korrektur zur Inferenzzeit

Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction

papers.abstract

Support