В поиске иголок в стоге сена из 10 миллионов: рекуррентная память находит то, что упускают большие языковые модели
In Search of Needles in a 10M Haystack: Recurrent Memory Finds What LLMs Miss
February 16, 2024
Авторы: Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev
cs.AI
Аннотация
В данной статье рассматривается задача обработки длинных документов с использованием генеративных трансформаторных моделей. Для оценки различных подходов мы представляем BABILong — новый эталонный тест, предназначенный для проверки способностей моделей извлекать и обрабатывать распределённые факты в объёмных текстах. Наше исследование, включающее тестирование GPT-4 и RAG, показывает, что стандартные методы эффективны только для последовательностей длиной до 10^4 элементов. В то же время, доработка GPT-2 с использованием рекуррентных механизмов памяти позволяет модели справляться с задачами, включающими до 10^7 элементов. Этот результат представляет собой значительный прорыв, так как это на сегодняшний день самая длинная входная последовательность, обработанная любой открытой нейронной сетевой моделью, что демонстрирует существенное улучшение возможностей обработки длинных последовательностей.
English
This paper addresses the challenge of processing long documents using
generative transformer models. To evaluate different approaches, we introduce
BABILong, a new benchmark designed to assess model capabilities in extracting
and processing distributed facts within extensive texts. Our evaluation, which
includes benchmarks for GPT-4 and RAG, reveals that common methods are
effective only for sequences up to 10^4 elements. In contrast, fine-tuning
GPT-2 with recurrent memory augmentations enables it to handle tasks involving
up to 10^7 elements. This achievement marks a substantial leap, as it is by
far the longest input processed by any open neural network model to date,
demonstrating a significant improvement in the processing capabilities for long
sequences.Summary
AI-Generated Summary