Quando Memorizzare e Quando Fermarsi: Memoria Ricorrente Controllata per il Ragionamento su Contesti Lunghi

Abstract

Sebbene il ragionamento su contesti lunghi sia cruciale per varie applicazioni nel mondo reale, rimane una sfida per i grandi modelli linguistici (LLM), che soffrono di un degrado delle prestazioni all'aumentare della lunghezza del contesto. Il recente lavoro MemAgent ha tentato di affrontare questo problema elaborando il contesto a blocchi in un ciclo simile a una RNN e aggiornando una memoria testuale per la risposta finale. Tuttavia, questo ingenuo aggiornamento ricorrente della memoria presenta due svantaggi cruciali: (i) la memoria può esplodere rapidamente perché può aggiornarsi indiscriminatamente, anche su blocchi privi di evidenze; e (ii) il ciclo manca di un meccanismo di uscita, portando a calcoli non necessari anche dopo che sono state raccolte evidenze sufficienti. Per affrontare questi problemi, proponiamo GRU-Mem, che incorpora due gate controllati da testo per un ragionamento su contesti lunghi più stabile ed efficiente. Nello specifico, in GRU-Mem, la memoria si aggiorna solo quando il gate di aggiornamento è aperto e il ciclo ricorrente termina immediatamente non appena il gate di uscita si apre. Per dotare il modello di tali capacità, introduciamo due segnali di ricompensa, r^{update} e r^{exit}, all'interno di un framework di apprendimento per rinforzo end-to-end, premiando rispettivamente i comportamenti corretti di aggiornamento e di uscita. Esperimenti su varie attività di ragionamento su contesti lunghi dimostrano l'efficacia e l'efficienza di GRU-Mem, che generalmente supera il MemAgent vanilla con un'accelerazione della velocità di inferenza fino al 400%.

English

While reasoning over long context is crucial for various real-world applications, it remains challenging for large language models (LLMs) as they suffer from performance degradation as the context length grows. Recent work MemAgent has tried to tackle this by processing context chunk-by-chunk in an RNN-like loop and updating a textual memory for final answering. However, this naive recurrent memory update faces two crucial drawbacks: (i) memory can quickly explode because it can update indiscriminately, even on evidence-free chunks; and (ii) the loop lacks an exit mechanism, leading to unnecessary computation after even sufficient evidence is collected. To address these issues, we propose GRU-Mem, which incorporates two text-controlled gates for more stable and efficient long-context reasoning. Specifically, in GRU-Mem, the memory only updates when the update gate is open and the recurrent loop will exit immediately once the exit gate is open. To endow the model with such capabilities, we introduce two reward signals r^{update} and r^{exit} within end-to-end RL, rewarding the correct updating and exiting behaviors respectively. Experiments on various long-context reasoning tasks demonstrate the effectiveness and efficiency of GRU-Mem, which generally outperforms the vanilla MemAgent with up to 400\% times inference speed acceleration.

Quando Memorizzare e Quando Fermarsi: Memoria Ricorrente Controllata per il Ragionamento su Contesti Lunghi

When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

Abstract

Support