ChatPaper.aiChatPaper

La Prevenzione dell'Overflow Migliora i Modelli Linguistici Ricorrenti a Lungo Contesto

Overflow Prevention Enhances Long-Context Recurrent LLMs

May 12, 2025
Autori: Assaf Ben-Kish, Itamar Zimerman, M. Jehanzeb Mirza, James Glass, Leonid Karlinsky, Raja Giryes
cs.AI

Abstract

Una tendenza recente nei LLM è lo sviluppo di modelli ricorrenti sub-quadratici che migliorano l'efficienza nell'elaborazione di contesti lunghi. Investigiamo i principali modelli di grandi dimensioni per contesti lunghi, concentrandoci su come la loro memoria ricorrente di dimensione fissa influisca sulle prestazioni. I nostri esperimenti rivelano che, anche quando questi modelli vengono addestrati per contesti estesi, l'uso di contesti lunghi rimane sottoutilizzato. Nello specifico, dimostriamo che una procedura di inferenza basata su chunk, che identifica ed elabora solo la porzione più rilevante dell'input, può mitigare i fallimenti della memoria ricorrente ed essere efficace per molte attività a contesto lungo: su LongBench, il nostro metodo migliora le prestazioni complessive di Falcon3-Mamba-Inst-7B del 14%, Falcon-Mamba-Inst-7B del 28%, RecurrentGemma-IT-9B del 50% e RWKV6-Finch-7B del 51%. Sorprendentemente, questo approccio semplice porta anche a risultati all'avanguardia nel complesso benchmark LongBench v2, mostrando prestazioni competitive con Transformer di dimensioni equivalenti. Inoltre, i nostri risultati sollevano interrogativi sul fatto che i modelli ricorrenti sfruttino veramente le dipendenze a lungo raggio, poiché la nostra strategia a singolo chunk offre prestazioni migliori, anche in attività che presumibilmente richiedono relazioni cross-contesto.
English
A recent trend in LLMs is developing recurrent sub-quadratic models that improve long-context processing efficiency. We investigate leading large long-context models, focusing on how their fixed-size recurrent memory affects their performance. Our experiments reveal that, even when these models are trained for extended contexts, their use of long contexts remains underutilized. Specifically, we demonstrate that a chunk-based inference procedure, which identifies and processes only the most relevant portion of the input can mitigate recurrent memory failures and be effective for many long-context tasks: On LongBench, our method improves the overall performance of Falcon3-Mamba-Inst-7B by 14%, Falcon-Mamba-Inst-7B by 28%, RecurrentGemma-IT-9B by 50%, and RWKV6-Finch-7B by 51%. Surprisingly, this simple approach also leads to state-of-the-art results in the challenging LongBench v2 benchmark, showing competitive performance with equivalent size Transformers. Furthermore, our findings raise questions about whether recurrent models genuinely exploit long-range dependencies, as our single-chunk strategy delivers stronger performance - even in tasks that presumably require cross-context relations.
PDF32May 13, 2025