Quand mémoriser et quand s'arrêter : Mémoire récurrente à porte pour le raisonnement en contexte long

papers.abstract

Bien que le raisonnement sur de longs contextes soit crucial pour diverses applications réelles, il reste un défi pour les grands modèles de langage (LLM), car leurs performances se dégradent avec l'augmentation de la longueur du contexte. Les travaux récents sur MemAgent ont tenté de résoudre ce problème en traitant le contexte morceau par morceau dans une boucle de type RNN et en mettant à jour une mémoire textuelle pour la réponse finale. Cependant, cette mise à jour récurrente naïve de la mémoire présente deux inconvénients majeurs : (i) la mémoire peut exploser rapidement car elle se met à jour de manière indiscriminée, même sur des segments sans preuve ; et (ii) la boucle ne dispose pas d'un mécanisme de sortie, entraînant des calculs inutiles même après que des preuves suffisantes aient été recueillies. Pour résoudre ces problèmes, nous proposons GRU-Mem, qui intègre deux portes contrôlées par le texte pour un raisonnement sur contexte long plus stable et efficace. Concrètement, dans GRU-Mem, la mémoire ne se met à jour que lorsque la porte de mise à jour est ouverte, et la boucle récurrente se termine immédiatement une fois la porte de sortie ouverte. Pour doter le modèle de telles capacités, nous introduisons deux signaux de récompense, r^{update} et r^{exit}, dans un apprentissage par renforcement de bout en bout, récompensant respectivement les comportements corrects de mise à jour et de sortie. Les expériences sur diverses tâches de raisonnement en contexte long démontrent l'efficacité et l'efficience de GRU-Mem, qui surpasse généralement le MemAgent standard avec une accélération de vitesse d'inférence pouvant atteindre 400 %.

English

While reasoning over long context is crucial for various real-world applications, it remains challenging for large language models (LLMs) as they suffer from performance degradation as the context length grows. Recent work MemAgent has tried to tackle this by processing context chunk-by-chunk in an RNN-like loop and updating a textual memory for final answering. However, this naive recurrent memory update faces two crucial drawbacks: (i) memory can quickly explode because it can update indiscriminately, even on evidence-free chunks; and (ii) the loop lacks an exit mechanism, leading to unnecessary computation after even sufficient evidence is collected. To address these issues, we propose GRU-Mem, which incorporates two text-controlled gates for more stable and efficient long-context reasoning. Specifically, in GRU-Mem, the memory only updates when the update gate is open and the recurrent loop will exit immediately once the exit gate is open. To endow the model with such capabilities, we introduce two reward signals r^{update} and r^{exit} within end-to-end RL, rewarding the correct updating and exiting behaviors respectively. Experiments on various long-context reasoning tasks demonstrate the effectiveness and efficiency of GRU-Mem, which generally outperforms the vanilla MemAgent with up to 400\% times inference speed acceleration.

Quand mémoriser et quand s'arrêter : Mémoire récurrente à porte pour le raisonnement en contexte long

When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

papers.abstract

Support