Wanneer te onthouden en wanneer te stoppen: Gegateerd recurrent geheugen voor redeneren over lange contexten

Samenvatting

Hoewel redeneren over lange contexten cruciaal is voor diverse real-world toepassingen, blijft dit een uitdaging voor grote taalmodellen (LLM's) omdat ze last hebben van prestatievermindering naarmate de contextlengte toeneemt. Recent werk, MemAgent, heeft geprobeerd dit aan te pakken door context stukje-voor-stukje te verwerken in een RNN-achtige lus en een tekstueel geheugen bij te werken voor het uiteindelijke antwoord. Deze naïeve recurrent memory update kent echter twee cruciale tekortkomingen: (i) het geheugen kan snel exploderen omdat het ongericht kan updaten, zelfs bij chunks zonder bewijs; en (ii) de lus mist een exit-mechanisme, wat leidt tot onnodige berekeningen zelfs nadat voldoende bewijs is verzameld. Om deze problemen aan te pakken, stellen we GRU-Mem voor, dat twee tekstgestuurde poorten incorporeert voor stabieler en efficiënter redeneren over lange contexten. Specifiek in GRU-Mem wordt het geheugen alleen bijgewerkt wanneer de update-poort open staat, en de recurrent lus beëindigt onmiddellijk zodra de exit-poort opengaat. Om het model met dergelijke capaciteiten uit te rusten, introduceren we twee beloningssignalen, r^{update} en r^{exit}, binnen end-to-end reinforcement learning, die respectievelijk het correct updaten en exit-gedrag belonen. Experimenten op diverse taken voor redeneren over lange contexten demonstreren de effectiviteit en efficiëntie van GRU-Mem, dat over het algemeen superieur presteert aan de standaard MemAgent met een versnelling van de inferentiesnelheid tot wel 400%.

English

While reasoning over long context is crucial for various real-world applications, it remains challenging for large language models (LLMs) as they suffer from performance degradation as the context length grows. Recent work MemAgent has tried to tackle this by processing context chunk-by-chunk in an RNN-like loop and updating a textual memory for final answering. However, this naive recurrent memory update faces two crucial drawbacks: (i) memory can quickly explode because it can update indiscriminately, even on evidence-free chunks; and (ii) the loop lacks an exit mechanism, leading to unnecessary computation after even sufficient evidence is collected. To address these issues, we propose GRU-Mem, which incorporates two text-controlled gates for more stable and efficient long-context reasoning. Specifically, in GRU-Mem, the memory only updates when the update gate is open and the recurrent loop will exit immediately once the exit gate is open. To endow the model with such capabilities, we introduce two reward signals r^{update} and r^{exit} within end-to-end RL, rewarding the correct updating and exiting behaviors respectively. Experiments on various long-context reasoning tasks demonstrate the effectiveness and efficiency of GRU-Mem, which generally outperforms the vanilla MemAgent with up to 400\% times inference speed acceleration.

Wanneer te onthouden en wanneer te stoppen: Gegateerd recurrent geheugen voor redeneren over lange contexten

When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

Samenvatting

Support