ChatPaper.aiChatPaper

En busca de agujas en un pajar de 10 millones: la memoria recurrente encuentra lo que los LLMs pasan por alto

In Search of Needles in a 10M Haystack: Recurrent Memory Finds What LLMs Miss

February 16, 2024
Autores: Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev
cs.AI

Resumen

Este artículo aborda el desafío de procesar documentos extensos utilizando modelos generativos basados en transformadores. Para evaluar diferentes enfoques, introducimos BABILong, un nuevo punto de referencia diseñado para evaluar las capacidades de los modelos en la extracción y procesamiento de hechos distribuidos dentro de textos extensos. Nuestra evaluación, que incluye pruebas comparativas para GPT-4 y RAG, revela que los métodos comunes solo son efectivos para secuencias de hasta 10^4 elementos. En contraste, el ajuste fino de GPT-2 con mejoras de memoria recurrente le permite manejar tareas que involucran hasta 10^7 elementos. Este logro representa un avance significativo, ya que es, con mucho, la entrada más larga procesada por cualquier modelo de red neuronal abierto hasta la fecha, demostrando una mejora sustancial en las capacidades de procesamiento para secuencias largas.
English
This paper addresses the challenge of processing long documents using generative transformer models. To evaluate different approaches, we introduce BABILong, a new benchmark designed to assess model capabilities in extracting and processing distributed facts within extensive texts. Our evaluation, which includes benchmarks for GPT-4 and RAG, reveals that common methods are effective only for sequences up to 10^4 elements. In contrast, fine-tuning GPT-2 with recurrent memory augmentations enables it to handle tasks involving up to 10^7 elements. This achievement marks a substantial leap, as it is by far the longest input processed by any open neural network model to date, demonstrating a significant improvement in the processing capabilities for long sequences.
PDF438December 15, 2024