Overflowpreventie verbetert recurrent LLMs met lange context.
Overflow Prevention Enhances Long-Context Recurrent LLMs
May 12, 2025
Auteurs: Assaf Ben-Kish, Itamar Zimerman, M. Jehanzeb Mirza, James Glass, Leonid Karlinsky, Raja Giryes
cs.AI
Samenvatting
Een recente trend in LLM's is de ontwikkeling van recurrente sub-kwadratische modellen die de efficiëntie van lang-context verwerking verbeteren. Wij onderzoeken toonaangevende grote lang-context modellen, met de focus op hoe hun vaste grootte van het recurrente geheugen hun prestaties beïnvloedt. Onze experimenten tonen aan dat, zelfs wanneer deze modellen getraind zijn voor uitgebreide contexten, hun gebruik van lange contexten onderbenut blijft. Specifiek demonstreren we dat een chunk-gebaseerde inferentieprocedure, die alleen het meest relevante deel van de input identificeert en verwerkt, recurrente geheugenfouten kan mitigeren en effectief kan zijn voor veel lang-context taken: Op LongBench verbetert onze methode de algehele prestaties van Falcon3-Mamba-Inst-7B met 14%, Falcon-Mamba-Inst-7B met 28%, RecurrentGemma-IT-9B met 50%, en RWKV6-Finch-7B met 51%. Verrassend genoeg leidt deze eenvoudige aanpak ook tot state-of-the-art resultaten in de uitdagende LongBench v2 benchmark, waarbij het competitieve prestaties laat zien met Transformers van vergelijkbare grootte. Bovendien roepen onze bevindingen vragen op over of recurrente modellen daadwerkelijk lange-afhankelijkheden benutten, aangezien onze single-chunk strategie sterkere prestaties levert - zelfs in taken die vermoedelijk cross-context relaties vereisen.
English
A recent trend in LLMs is developing recurrent sub-quadratic models that
improve long-context processing efficiency. We investigate leading large
long-context models, focusing on how their fixed-size recurrent memory affects
their performance. Our experiments reveal that, even when these models are
trained for extended contexts, their use of long contexts remains
underutilized. Specifically, we demonstrate that a chunk-based inference
procedure, which identifies and processes only the most relevant portion of the
input can mitigate recurrent memory failures and be effective for many
long-context tasks: On LongBench, our method improves the overall performance
of Falcon3-Mamba-Inst-7B by 14%, Falcon-Mamba-Inst-7B by 28%,
RecurrentGemma-IT-9B by 50%, and RWKV6-Finch-7B by 51%. Surprisingly, this
simple approach also leads to state-of-the-art results in the challenging
LongBench v2 benchmark, showing competitive performance with equivalent size
Transformers. Furthermore, our findings raise questions about whether recurrent
models genuinely exploit long-range dependencies, as our single-chunk strategy
delivers stronger performance - even in tasks that presumably require
cross-context relations.Summary
AI-Generated Summary