Предотвращение переполнения улучшает рекуррентные языковые модели с длинным контекстом.

Аннотация

Недавним трендом в области больших языковых моделей (LLM) стало развитие рекуррентных моделей с субквадратичной сложностью, которые повышают эффективность обработки длинных контекстов. Мы исследуем ведущие модели для работы с длинными контекстами, уделяя особое внимание тому, как их фиксированный размер рекуррентной памяти влияет на производительность. Наши эксперименты показывают, что даже при обучении на расширенных контекстах использование длинных контекстов в этих моделях остается недостаточно эффективным. В частности, мы демонстрируем, что процедура вывода на основе фрагментов, которая идентифицирует и обрабатывает только наиболее релевантную часть входных данных, может смягчить сбои рекуррентной памяти и быть эффективной для многих задач с длинными контекстами: на тестовом наборе LongBench наш метод улучшает общую производительность модели Falcon3-Mamba-Inst-7B на 14%, Falcon-Mamba-Inst-7B на 28%, RecurrentGemma-IT-9B на 50% и RWKV6-Finch-7B на 51%. Удивительно, но этот простой подход также приводит к передовым результатам в сложном бенчмарке LongBench v2, показывая конкурентоспособную производительность с моделями Transformers аналогичного размера. Более того, наши результаты ставят под сомнение, действительно ли рекуррентные модели используют долгосрочные зависимости, поскольку наша стратегия обработки одного фрагмента демонстрирует более высокую производительность — даже в задачах, которые, предположительно, требуют связей между контекстами.

English

A recent trend in LLMs is developing recurrent sub-quadratic models that improve long-context processing efficiency. We investigate leading large long-context models, focusing on how their fixed-size recurrent memory affects their performance. Our experiments reveal that, even when these models are trained for extended contexts, their use of long contexts remains underutilized. Specifically, we demonstrate that a chunk-based inference procedure, which identifies and processes only the most relevant portion of the input can mitigate recurrent memory failures and be effective for many long-context tasks: On LongBench, our method improves the overall performance of Falcon3-Mamba-Inst-7B by 14%, Falcon-Mamba-Inst-7B by 28%, RecurrentGemma-IT-9B by 50%, and RWKV6-Finch-7B by 51%. Surprisingly, this simple approach also leads to state-of-the-art results in the challenging LongBench v2 benchmark, showing competitive performance with equivalent size Transformers. Furthermore, our findings raise questions about whether recurrent models genuinely exploit long-range dependencies, as our single-chunk strategy delivers stronger performance - even in tasks that presumably require cross-context relations.

Предотвращение переполнения улучшает рекуррентные языковые модели с длинным контекстом.

Overflow Prevention Enhances Long-Context Recurrent LLMs

Аннотация

Support