Überlaufvermeidung verbessert rekurrente LLMs mit langem Kontext
Overflow Prevention Enhances Long-Context Recurrent LLMs
May 12, 2025
Autoren: Assaf Ben-Kish, Itamar Zimerman, M. Jehanzeb Mirza, James Glass, Leonid Karlinsky, Raja Giryes
cs.AI
Zusammenfassung
Ein aktueller Trend bei großen Sprachmodellen (LLMs) ist die Entwicklung von rekurrenten sub-quadratischen Modellen, die die Effizienz bei der Verarbeitung langer Kontexte verbessern. Wir untersuchen führende große Modelle für lange Kontexte, wobei wir uns darauf konzentrieren, wie ihr festgelegter rekurrenter Speicher ihre Leistung beeinflusst. Unsere Experimente zeigen, dass selbst wenn diese Modelle für erweiterte Kontexte trainiert werden, ihre Nutzung langer Kontexte unterausgeschöpft bleibt. Insbesondere demonstrieren wir, dass ein chunk-basiertes Inferenzverfahren, das nur den relevantesten Teil der Eingabe identifiziert und verarbeitet, rekurrente Speicherfehler mildern und für viele Aufgaben mit langen Kontexten effektiv sein kann: Auf LongBench verbessert unsere Methode die Gesamtleistung von Falcon3-Mamba-Inst-7B um 14%, Falcon-Mamba-Inst-7B um 28%, RecurrentGemma-IT-9B um 50% und RWKV6-Finch-7B um 51%. Überraschenderweise führt dieser einfache Ansatz auch zu state-of-the-art Ergebnissen im anspruchsvollen LongBench v2 Benchmark und zeigt eine wettbewerbsfähige Leistung im Vergleich zu Transformern gleicher Größe. Darüber hinaus werfen unsere Ergebnisse Fragen auf, ob rekurrente Modelle tatsächlich langreichweitige Abhängigkeiten nutzen, da unsere Single-Chunk-Strategie eine stärkere Leistung liefert – selbst bei Aufgaben, die vermeintlich kontextübergreifende Beziehungen erfordern.
English
A recent trend in LLMs is developing recurrent sub-quadratic models that
improve long-context processing efficiency. We investigate leading large
long-context models, focusing on how their fixed-size recurrent memory affects
their performance. Our experiments reveal that, even when these models are
trained for extended contexts, their use of long contexts remains
underutilized. Specifically, we demonstrate that a chunk-based inference
procedure, which identifies and processes only the most relevant portion of the
input can mitigate recurrent memory failures and be effective for many
long-context tasks: On LongBench, our method improves the overall performance
of Falcon3-Mamba-Inst-7B by 14%, Falcon-Mamba-Inst-7B by 28%,
RecurrentGemma-IT-9B by 50%, and RWKV6-Finch-7B by 51%. Surprisingly, this
simple approach also leads to state-of-the-art results in the challenging
LongBench v2 benchmark, showing competitive performance with equivalent size
Transformers. Furthermore, our findings raise questions about whether recurrent
models genuinely exploit long-range dependencies, as our single-chunk strategy
delivers stronger performance - even in tasks that presumably require
cross-context relations.Summary
AI-Generated Summary