La prévention des débordements améliore les LLMs récurrents à contexte long.
Overflow Prevention Enhances Long-Context Recurrent LLMs
May 12, 2025
Auteurs: Assaf Ben-Kish, Itamar Zimerman, M. Jehanzeb Mirza, James Glass, Leonid Karlinsky, Raja Giryes
cs.AI
Résumé
Une tendance récente dans les modèles de langage de grande taille (LLMs) est le développement de modèles récurrents sous-quadratiques qui améliorent l'efficacité du traitement des contextes longs. Nous étudions les principaux modèles conçus pour les contextes étendus, en nous concentrant sur la manière dont leur mémoire récurrente de taille fixe influence leurs performances. Nos expériences révèlent que, même lorsque ces modèles sont entraînés pour des contextes prolongés, leur utilisation des contextes longs reste sous-exploitée. Plus précisément, nous démontrons qu'une procédure d'inférence basée sur des segments, qui identifie et traite uniquement la partie la plus pertinente de l'entrée, peut atténuer les défaillances de la mémoire récurrente et s'avérer efficace pour de nombreuses tâches impliquant des contextes longs : sur LongBench, notre méthode améliore les performances globales de Falcon3-Mamba-Inst-7B de 14 %, Falcon-Mamba-Inst-7B de 28 %, RecurrentGemma-IT-9B de 50 % et RWKV6-Finch-7B de 51 %. Étonnamment, cette approche simple conduit également à des résultats de pointe dans le benchmark exigeant LongBench v2, affichant des performances compétitives avec des Transformers de taille équivalente. Par ailleurs, nos résultats soulèvent des questions sur la capacité des modèles récurrents à exploiter véritablement les dépendances à long terme, car notre stratégie à segment unique offre de meilleures performances, même dans des tâches censées nécessiter des relations inter-contextes.
English
A recent trend in LLMs is developing recurrent sub-quadratic models that
improve long-context processing efficiency. We investigate leading large
long-context models, focusing on how their fixed-size recurrent memory affects
their performance. Our experiments reveal that, even when these models are
trained for extended contexts, their use of long contexts remains
underutilized. Specifically, we demonstrate that a chunk-based inference
procedure, which identifies and processes only the most relevant portion of the
input can mitigate recurrent memory failures and be effective for many
long-context tasks: On LongBench, our method improves the overall performance
of Falcon3-Mamba-Inst-7B by 14%, Falcon-Mamba-Inst-7B by 28%,
RecurrentGemma-IT-9B by 50%, and RWKV6-Finch-7B by 51%. Surprisingly, this
simple approach also leads to state-of-the-art results in the challenging
LongBench v2 benchmark, showing competitive performance with equivalent size
Transformers. Furthermore, our findings raise questions about whether recurrent
models genuinely exploit long-range dependencies, as our single-chunk strategy
delivers stronger performance - even in tasks that presumably require
cross-context relations.Summary
AI-Generated Summary