BABILong: Evaluando los límites de los LLM con razonamiento en contextos extensos Razonamiento-en-un-pajar
BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack
June 14, 2024
Autores: Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev
cs.AI
Resumen
En los últimos años, los tamaños de contexto de entrada de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) han aumentado drásticamente. Sin embargo, los métodos de evaluación existentes no han seguido el mismo ritmo, fallando en evaluar de manera integral la eficiencia de los modelos para manejar contextos largos. Para cerrar esta brecha, presentamos el benchmark BABILong, diseñado para probar la capacidad de los modelos de lenguaje para razonar a través de hechos distribuidos en documentos extremadamente largos. BABILong incluye un conjunto diverso de 20 tareas de razonamiento, como encadenamiento de hechos, inducción simple, deducción, conteo y manejo de listas/conjuntos. Estas tareas son desafiantes por sí mismas, y aún más exigentes cuando los hechos necesarios están dispersos en textos naturales largos. Nuestras evaluaciones muestran que los LLMs populares utilizan efectivamente solo el 10-20\% del contexto y su rendimiento disminuye drásticamente con el aumento de la complejidad del razonamiento. Entre las alternativas al razonamiento en contexto, los métodos de Generación Aumentada con Recuperación (RAG, por sus siglas en inglés) alcanzan una precisión modesta del 60\% en la respuesta a preguntas de un solo hecho, independientemente de la longitud del contexto. Entre los métodos de extensión de contexto, el mayor rendimiento lo demuestran los transformadores con memoria recurrente, que permiten procesar longitudes de hasta 11 millones de tokens. El benchmark BABILong es extensible a cualquier longitud para apoyar la evaluación de nuevos modelos con capacidades incrementadas, y proporcionamos divisiones de hasta 1 millón de tokens de longitud.
English
In recent years, the input context sizes of large language models (LLMs) have
increased dramatically. However, existing evaluation methods have not kept
pace, failing to comprehensively assess the efficiency of models in handling
long contexts. To bridge this gap, we introduce the BABILong benchmark,
designed to test language models' ability to reason across facts distributed in
extremely long documents. BABILong includes a diverse set of 20 reasoning
tasks, including fact chaining, simple induction, deduction, counting, and
handling lists/sets. These tasks are challenging on their own, and even more
demanding when the required facts are scattered across long natural text. Our
evaluations show that popular LLMs effectively utilize only 10-20\% of the
context and their performance declines sharply with increased reasoning
complexity. Among alternatives to in-context reasoning, Retrieval-Augmented
Generation methods achieve a modest 60\% accuracy on single-fact question
answering, independent of context length. Among context extension methods, the
highest performance is demonstrated by recurrent memory transformers, enabling
the processing of lengths up to 11 million tokens. The BABILong benchmark is
extendable to any length to support the evaluation of new upcoming models with
increased capabilities, and we provide splits up to 1 million token lengths.Summary
AI-Generated Summary