Wann zu merken und wann aufzuhören: Gated Recurrent Memory für Schlussfolgerungen in langen Kontexten

papers.abstract

Während das Schließen von Schlussfolgerungen über lange Kontexte für viele praktische Anwendungen entscheidend ist, stellt es nach wie vor eine Herausforderung für große Sprachmodelle (LLMs) dar, da deren Leistung mit zunehmender Kontextlänge abnimmt. Der kürzlich vorgestellte Ansatz MemAgent hat versucht, dies zu lösen, indem der Kontext abschnittsweise in einer RNN-ähnlichen Schleife verarbeitet und ein textueller Speicher für die finale Beantwortung aktualisiert wird. Diese naive wiederkehrende Speicheraktualisierung weist jedoch zwei entscheidende Nachteile auf: (i) Der Speicher kann schnell anwachsen, da er auch bei evidenzfreien Abschnitten undiskriminiert aktualisiert wird; und (ii) der Schleifenmechanismus besitzt keine Austrittsfunktion, was zu unnötigen Berechnungen führt, selbst nachdem bereits ausreichend Evidenz gesammelt wurde. Um diese Probleme zu adressieren, schlagen wir GRU-Mem vor, das zwei textgesteuerte Gates für ein stabileres und effizienteres Schließen von Schlussfolgerungen über lange Kontexte integriert. Konkret aktualisiert sich der Speicher in GRU-Mem nur, wenn das Update-Gate geöffnet ist, und die wiederkehrende Schleife wird sofort verlassen, sobald das Exit-Gate geöffnet ist. Um dem Modell diese Fähigkeiten zu verleihen, führen wir zwei Belohnungssignale, r^{update} und r^{exit}, innerhalb eines End-to-End-Reinforcement-Learnings ein, die korrektes Update- bzw. Exit-Verhalten belohnen. Experimente auf verschiedenen Aufgaben zum Schließen von Schlussfolgerungen über lange Kontexte demonstrieren die Wirksamkeit und Effizienz von GRU-Mem, das den ursprünglichen MemAgent im Allgemeinen übertrifft und dabei eine bis zu 400 % schnellere Inferenzgeschwindigkeit erreicht.

English

While reasoning over long context is crucial for various real-world applications, it remains challenging for large language models (LLMs) as they suffer from performance degradation as the context length grows. Recent work MemAgent has tried to tackle this by processing context chunk-by-chunk in an RNN-like loop and updating a textual memory for final answering. However, this naive recurrent memory update faces two crucial drawbacks: (i) memory can quickly explode because it can update indiscriminately, even on evidence-free chunks; and (ii) the loop lacks an exit mechanism, leading to unnecessary computation after even sufficient evidence is collected. To address these issues, we propose GRU-Mem, which incorporates two text-controlled gates for more stable and efficient long-context reasoning. Specifically, in GRU-Mem, the memory only updates when the update gate is open and the recurrent loop will exit immediately once the exit gate is open. To endow the model with such capabilities, we introduce two reward signals r^{update} and r^{exit} within end-to-end RL, rewarding the correct updating and exiting behaviors respectively. Experiments on various long-context reasoning tasks demonstrate the effectiveness and efficiency of GRU-Mem, which generally outperforms the vanilla MemAgent with up to 400\% times inference speed acceleration.

Wann zu merken und wann aufzuhören: Gated Recurrent Memory für Schlussfolgerungen in langen Kontexten

When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

papers.abstract

Support