Evaluatie van Contextvensters in Taalmodellen: Een "Werkgeheugen"-Test en Correctie tijdens Inferentie
Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction
July 4, 2024
Auteurs: Amanda Dsouza, Christopher Glaze, Changho Shin, Frederic Sala
cs.AI
Samenvatting
Grote taalmodelen worden veelvuldig gebruikt in praktijktoepassingen, waarbij ze vaak de taak hebben om te redeneren over grote hoeveelheden documenten. Een spannende ontwikkeling op dit gebied zijn modellen met uitgebreide contextmogelijkheden, waarvan sommige meer dan 2 miljoen tokens kunnen verwerken. De prestaties van dergelijke lang-contextmodellen in productiesystemen blijven echter onzeker, wat de noodzaak onderstreept om hun prestaties te benchmarken aan de hand van real-world use cases. Wij pakken deze uitdaging aan door SWiM voor te stellen, een evaluatieraamwerk dat de beperkingen van standaardtests aanpakt. Door het raamwerk te testen op acht lang-contextmodellen, ontdekken we dat zelfs sterke modellen zoals GPT-4 en Claude 3 Opus in prestaties achteruitgaan wanneer informatie zich in het midden van het contextvenster bevindt (het 'lost-in-the-middle'-effect). Daarnaast stellen we, naast onze benchmark, medoid voting voor, een eenvoudige maar effectieve trainingsvrije aanpak die helpt om dit effect te verminderen door reacties meerdere keren te genereren, waarbij de documenten in de context elke keer willekeurig worden herschikt, en het medoid-antwoord te selecteren. We evalueren medoid voting op taken waarbij één document wordt bevraagd (single document QA), en behalen daarbij een nauwkeurigheidsverbetering van tot wel 24%.
English
Large language models are prominently used in real-world applications, often
tasked with reasoning over large volumes of documents. An exciting development
in this space is models boasting extended context capabilities, with some
accommodating over 2 million tokens. Such long context model capabilities
remain uncertain in production systems, motivating the need to benchmark their
performance on real world use cases. We address this challenge by proposing
SWiM, an evaluation framework that addresses the limitations of standard tests.
Testing the framework on eight long context models, we find that even strong
models such as GPT-4 and Claude 3 Opus degrade in performance when information
is present in the middle of the context window (lost-in-the-middle effect).
Next, in addition to our benchmark, we propose medoid voting, a simple, but
effective training-free approach that helps alleviate this effect, by
generating responses a few times, each time randomly permuting documents in the
context, and selecting the medoid answer. We evaluate medoid voting on single
document QA tasks, achieving up to a 24% lift in accuracy.