En busca de agujas en un pajar de 10 millones: la memoria recurrente encuentra lo que los LLMs pasan por alto
In Search of Needles in a 10M Haystack: Recurrent Memory Finds What LLMs Miss
February 16, 2024
Autores: Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev
cs.AI
Resumen
Este artículo aborda el desafío de procesar documentos extensos utilizando
modelos generativos basados en transformadores. Para evaluar diferentes enfoques,
introducimos BABILong, un nuevo punto de referencia diseñado para evaluar las
capacidades de los modelos en la extracción y procesamiento de hechos distribuidos
dentro de textos extensos. Nuestra evaluación, que incluye pruebas comparativas
para GPT-4 y RAG, revela que los métodos comunes solo son efectivos para secuencias
de hasta 10^4 elementos. En contraste, el ajuste fino de GPT-2 con mejoras de memoria
recurrente le permite manejar tareas que involucran hasta 10^7 elementos. Este logro
representa un avance significativo, ya que es, con mucho, la entrada más larga
procesada por cualquier modelo de red neuronal abierto hasta la fecha, demostrando
una mejora sustancial en las capacidades de procesamiento para secuencias largas.
English
This paper addresses the challenge of processing long documents using
generative transformer models. To evaluate different approaches, we introduce
BABILong, a new benchmark designed to assess model capabilities in extracting
and processing distributed facts within extensive texts. Our evaluation, which
includes benchmarks for GPT-4 and RAG, reveals that common methods are
effective only for sequences up to 10^4 elements. In contrast, fine-tuning
GPT-2 with recurrent memory augmentations enables it to handle tasks involving
up to 10^7 elements. This achievement marks a substantial leap, as it is by
far the longest input processed by any open neural network model to date,
demonstrating a significant improvement in the processing capabilities for long
sequences.