Evaluación de las Ventanas de Contexto del Modelo de Lenguaje: Una Prueba de "Memoria de Trabajo" y Corrección en Tiempo de Inferencia

Resumen

Los modelos de lenguaje grandes se utilizan prominentemente en aplicaciones del mundo real, a menudo encargados de razonar sobre grandes volúmenes de documentos. Un desarrollo emocionante en este ámbito son los modelos que presumen de capacidades de contexto extendido, con algunos que pueden manejar más de 2 millones de tokens. Estas capacidades de modelos de largo contexto siguen siendo inciertas en sistemas de producción, lo que motiva la necesidad de evaluar su rendimiento en casos de uso del mundo real. Abordamos este desafío proponiendo SWiM, un marco de evaluación que aborda las limitaciones de las pruebas estándar. Al probar el marco en ocho modelos de largo contexto, descubrimos que incluso modelos sólidos como GPT-4 y Claude 3 Opus disminuyen su rendimiento cuando la información se encuentra en el medio de la ventana de contexto (efecto de pérdida en el medio). A continuación, además de nuestra evaluación, proponemos el voto de medoides, un enfoque simple pero efectivo sin entrenamiento que ayuda a aliviar este efecto, generando respuestas varias veces, cada vez permutando aleatoriamente los documentos en el contexto y seleccionando la respuesta medoide. Evaluamos el voto de medoides en tareas de preguntas y respuestas de un solo documento, logrando hasta un aumento del 24% en precisión.

English

Large language models are prominently used in real-world applications, often tasked with reasoning over large volumes of documents. An exciting development in this space is models boasting extended context capabilities, with some accommodating over 2 million tokens. Such long context model capabilities remain uncertain in production systems, motivating the need to benchmark their performance on real world use cases. We address this challenge by proposing SWiM, an evaluation framework that addresses the limitations of standard tests. Testing the framework on eight long context models, we find that even strong models such as GPT-4 and Claude 3 Opus degrade in performance when information is present in the middle of the context window (lost-in-the-middle effect). Next, in addition to our benchmark, we propose medoid voting, a simple, but effective training-free approach that helps alleviate this effect, by generating responses a few times, each time randomly permuting documents in the context, and selecting the medoid answer. We evaluate medoid voting on single document QA tasks, achieving up to a 24% lift in accuracy.

Evaluación de las Ventanas de Contexto del Modelo de Lenguaje: Una Prueba de "Memoria de Trabajo" y Corrección en Tiempo de Inferencia

Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction

Resumen

Support