Предотвращение переполнения улучшает рекуррентные языковые модели с длинным контекстом.
Overflow Prevention Enhances Long-Context Recurrent LLMs
May 12, 2025
Авторы: Assaf Ben-Kish, Itamar Zimerman, M. Jehanzeb Mirza, James Glass, Leonid Karlinsky, Raja Giryes
cs.AI
Аннотация
Недавним трендом в области больших языковых моделей (LLM) стало развитие рекуррентных моделей с субквадратичной сложностью, которые повышают эффективность обработки длинных контекстов. Мы исследуем ведущие модели для работы с длинными контекстами, уделяя особое внимание тому, как их фиксированный размер рекуррентной памяти влияет на производительность. Наши эксперименты показывают, что даже при обучении на расширенных контекстах использование длинных контекстов в этих моделях остается недостаточно эффективным. В частности, мы демонстрируем, что процедура вывода на основе фрагментов, которая идентифицирует и обрабатывает только наиболее релевантную часть входных данных, может смягчить сбои рекуррентной памяти и быть эффективной для многих задач с длинными контекстами: на тестовом наборе LongBench наш метод улучшает общую производительность модели Falcon3-Mamba-Inst-7B на 14%, Falcon-Mamba-Inst-7B на 28%, RecurrentGemma-IT-9B на 50% и RWKV6-Finch-7B на 51%. Удивительно, но этот простой подход также приводит к передовым результатам в сложном бенчмарке LongBench v2, показывая конкурентоспособную производительность с моделями Transformers аналогичного размера. Более того, наши результаты ставят под сомнение, действительно ли рекуррентные модели используют долгосрочные зависимости, поскольку наша стратегия обработки одного фрагмента демонстрирует более высокую производительность — даже в задачах, которые, предположительно, требуют связей между контекстами.
English
A recent trend in LLMs is developing recurrent sub-quadratic models that
improve long-context processing efficiency. We investigate leading large
long-context models, focusing on how their fixed-size recurrent memory affects
their performance. Our experiments reveal that, even when these models are
trained for extended contexts, their use of long contexts remains
underutilized. Specifically, we demonstrate that a chunk-based inference
procedure, which identifies and processes only the most relevant portion of the
input can mitigate recurrent memory failures and be effective for many
long-context tasks: On LongBench, our method improves the overall performance
of Falcon3-Mamba-Inst-7B by 14%, Falcon-Mamba-Inst-7B by 28%,
RecurrentGemma-IT-9B by 50%, and RWKV6-Finch-7B by 51%. Surprisingly, this
simple approach also leads to state-of-the-art results in the challenging
LongBench v2 benchmark, showing competitive performance with equivalent size
Transformers. Furthermore, our findings raise questions about whether recurrent
models genuinely exploit long-range dependencies, as our single-chunk strategy
delivers stronger performance - even in tasks that presumably require
cross-context relations.Summary
AI-Generated Summary