Valutazione delle Finestre Contestuali dei Modelli Linguistici: Un Test della "Memoria di Lavoro" e Correzione al Momento dell'Inferenza

Abstract

I grandi modelli linguistici sono ampiamente utilizzati in applicazioni del mondo reale, spesso incaricati di ragionare su grandi volumi di documenti. Uno sviluppo entusiasmante in questo ambito è rappresentato da modelli che vantano capacità di contesto esteso, con alcuni in grado di gestire oltre 2 milioni di token. Tuttavia, le capacità di questi modelli con contesto lungo rimangono incerte nei sistemi di produzione, motivando la necessità di valutare le loro prestazioni su casi d'uso reali. Affrontiamo questa sfida proponendo SWiM, un framework di valutazione che supera i limiti dei test standard. Testando il framework su otto modelli con contesto lungo, scopriamo che anche modelli potenti come GPT-4 e Claude 3 Opus vedono un calo delle prestazioni quando le informazioni si trovano al centro della finestra di contesto (effetto "lost-in-the-middle"). Inoltre, oltre al nostro benchmark, proponiamo il voto mediano, un approccio semplice ma efficace che non richiede addestramento e aiuta a mitigare questo effetto, generando risposte più volte, ogni volta permutando casualmente i documenti nel contesto, e selezionando la risposta mediana. Valutiamo il voto mediano su task di QA con singolo documento, ottenendo un miglioramento dell'accuratezza fino al 24%.

English

Large language models are prominently used in real-world applications, often tasked with reasoning over large volumes of documents. An exciting development in this space is models boasting extended context capabilities, with some accommodating over 2 million tokens. Such long context model capabilities remain uncertain in production systems, motivating the need to benchmark their performance on real world use cases. We address this challenge by proposing SWiM, an evaluation framework that addresses the limitations of standard tests. Testing the framework on eight long context models, we find that even strong models such as GPT-4 and Claude 3 Opus degrade in performance when information is present in the middle of the context window (lost-in-the-middle effect). Next, in addition to our benchmark, we propose medoid voting, a simple, but effective training-free approach that helps alleviate this effect, by generating responses a few times, each time randomly permuting documents in the context, and selecting the medoid answer. We evaluate medoid voting on single document QA tasks, achieving up to a 24% lift in accuracy.

Valutazione delle Finestre Contestuali dei Modelli Linguistici: Un Test della "Memoria di Lavoro" e Correzione al Momento dell'Inferenza

Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction

Abstract

Support