ChatPaper.aiChatPaper

A Prevenção de Transbordamento Melhora os LLMs Recorrentes de Contexto Longo

Overflow Prevention Enhances Long-Context Recurrent LLMs

May 12, 2025
Autores: Assaf Ben-Kish, Itamar Zimerman, M. Jehanzeb Mirza, James Glass, Leonid Karlinsky, Raja Giryes
cs.AI

Resumo

Uma tendência recente em LLMs é o desenvolvimento de modelos recorrentes subquadráticos que melhoram a eficiência do processamento de contextos longos. Investigamos os principais modelos de contexto longo, focando em como sua memória recorrente de tamanho fixo afeta seu desempenho. Nossos experimentos revelam que, mesmo quando esses modelos são treinados para contextos estendidos, o uso de contextos longos permanece subutilizado. Especificamente, demonstramos que um procedimento de inferência baseado em chunks, que identifica e processa apenas a porção mais relevante da entrada, pode mitigar falhas da memória recorrente e ser eficaz para muitas tarefas de contexto longo: no LongBench, nosso método melhora o desempenho geral do Falcon3-Mamba-Inst-7B em 14%, do Falcon-Mamba-Inst-7B em 28%, do RecurrentGemma-IT-9B em 50% e do RWKV6-Finch-7B em 51%. Surpreendentemente, essa abordagem simples também leva a resultados state-of-the-art no desafiador benchmark LongBench v2, mostrando desempenho competitivo com Transformers de tamanho equivalente. Além disso, nossas descobertas levantam questões sobre se os modelos recorrentes realmente exploram dependências de longo alcance, já que nossa estratégia de chunk único oferece um desempenho superior — mesmo em tarefas que presumivelmente exigem relações entre contextos.
English
A recent trend in LLMs is developing recurrent sub-quadratic models that improve long-context processing efficiency. We investigate leading large long-context models, focusing on how their fixed-size recurrent memory affects their performance. Our experiments reveal that, even when these models are trained for extended contexts, their use of long contexts remains underutilized. Specifically, we demonstrate that a chunk-based inference procedure, which identifies and processes only the most relevant portion of the input can mitigate recurrent memory failures and be effective for many long-context tasks: On LongBench, our method improves the overall performance of Falcon3-Mamba-Inst-7B by 14%, Falcon-Mamba-Inst-7B by 28%, RecurrentGemma-IT-9B by 50%, and RWKV6-Finch-7B by 51%. Surprisingly, this simple approach also leads to state-of-the-art results in the challenging LongBench v2 benchmark, showing competitive performance with equivalent size Transformers. Furthermore, our findings raise questions about whether recurrent models genuinely exploit long-range dependencies, as our single-chunk strategy delivers stronger performance - even in tasks that presumably require cross-context relations.
PDF32March 21, 2026