Évaluation des fenêtres contextuelles des modèles de langage : un test de "mémoire de travail" et une correction au moment de l'inférence

papers.abstract

Les grands modèles de langage sont largement utilisés dans des applications réelles, souvent chargés de raisonner sur de grands volumes de documents. Un développement passionnant dans ce domaine est l'émergence de modèles dotés de capacités de contexte étendu, certains pouvant traiter plus de 2 millions de tokens. Cependant, les performances de ces modèles à contexte long restent incertaines dans les systèmes de production, ce qui motive la nécessité de les évaluer sur des cas d'utilisation réels. Nous relevons ce défi en proposant SWiM, un cadre d'évaluation qui pallie les limites des tests standards. En testant ce cadre sur huit modèles à contexte long, nous constatons que même des modèles performants comme GPT-4 et Claude 3 Opus voient leurs performances se dégrader lorsque l'information se situe au milieu de la fenêtre de contexte (effet "perdu au milieu"). Par ailleurs, en complément de notre benchmark, nous proposons le vote médioïde, une approche simple mais efficace, ne nécessitant pas d'entraînement, qui aide à atténuer cet effet en générant plusieurs réponses, chaque fois en permutant aléatoirement les documents dans le contexte, puis en sélectionnant la réponse médioïde. Nous évaluons le vote médioïde sur des tâches de question-réponse sur un seul document, obtenant une amélioration allant jusqu'à 24 % en termes de précision.

English

Large language models are prominently used in real-world applications, often tasked with reasoning over large volumes of documents. An exciting development in this space is models boasting extended context capabilities, with some accommodating over 2 million tokens. Such long context model capabilities remain uncertain in production systems, motivating the need to benchmark their performance on real world use cases. We address this challenge by proposing SWiM, an evaluation framework that addresses the limitations of standard tests. Testing the framework on eight long context models, we find that even strong models such as GPT-4 and Claude 3 Opus degrade in performance when information is present in the middle of the context window (lost-in-the-middle effect). Next, in addition to our benchmark, we propose medoid voting, a simple, but effective training-free approach that helps alleviate this effect, by generating responses a few times, each time randomly permuting documents in the context, and selecting the medoid answer. We evaluate medoid voting on single document QA tasks, achieving up to a 24% lift in accuracy.

Évaluation des fenêtres contextuelles des modèles de langage : un test de "mémoire de travail" et une correction au moment de l'inférence

Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction

papers.abstract

Support