Evaluatie van Contextvensters in Taalmodellen: Een "Werkgeheugen"-Test en Correctie tijdens Inferentie

Samenvatting

Grote taalmodelen worden veelvuldig gebruikt in praktijktoepassingen, waarbij ze vaak de taak hebben om te redeneren over grote hoeveelheden documenten. Een spannende ontwikkeling op dit gebied zijn modellen met uitgebreide contextmogelijkheden, waarvan sommige meer dan 2 miljoen tokens kunnen verwerken. De prestaties van dergelijke lang-contextmodellen in productiesystemen blijven echter onzeker, wat de noodzaak onderstreept om hun prestaties te benchmarken aan de hand van real-world use cases. Wij pakken deze uitdaging aan door SWiM voor te stellen, een evaluatieraamwerk dat de beperkingen van standaardtests aanpakt. Door het raamwerk te testen op acht lang-contextmodellen, ontdekken we dat zelfs sterke modellen zoals GPT-4 en Claude 3 Opus in prestaties achteruitgaan wanneer informatie zich in het midden van het contextvenster bevindt (het 'lost-in-the-middle'-effect). Daarnaast stellen we, naast onze benchmark, medoid voting voor, een eenvoudige maar effectieve trainingsvrije aanpak die helpt om dit effect te verminderen door reacties meerdere keren te genereren, waarbij de documenten in de context elke keer willekeurig worden herschikt, en het medoid-antwoord te selecteren. We evalueren medoid voting op taken waarbij één document wordt bevraagd (single document QA), en behalen daarbij een nauwkeurigheidsverbetering van tot wel 24%.

English

Large language models are prominently used in real-world applications, often tasked with reasoning over large volumes of documents. An exciting development in this space is models boasting extended context capabilities, with some accommodating over 2 million tokens. Such long context model capabilities remain uncertain in production systems, motivating the need to benchmark their performance on real world use cases. We address this challenge by proposing SWiM, an evaluation framework that addresses the limitations of standard tests. Testing the framework on eight long context models, we find that even strong models such as GPT-4 and Claude 3 Opus degrade in performance when information is present in the middle of the context window (lost-in-the-middle effect). Next, in addition to our benchmark, we propose medoid voting, a simple, but effective training-free approach that helps alleviate this effect, by generating responses a few times, each time randomly permuting documents in the context, and selecting the medoid answer. We evaluate medoid voting on single document QA tasks, achieving up to a 24% lift in accuracy.

Evaluatie van Contextvensters in Taalmodellen: Een "Werkgeheugen"-Test en Correctie tijdens Inferentie

Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction

Samenvatting

Support