Quando Memorizar e Quando Parar: Memória Recorrente Controlada para Raciocínio de Longo Contexto

Resumo

Embora o raciocínio sobre contextos longos seja crucial para diversas aplicações do mundo real, ele continua a ser um desafio para os grandes modelos de linguagem (LLMs), uma vez que estes sofrem de degradação de desempenho à medida que o comprimento do contexto aumenta. O trabalho recente MemAgent tentou abordar este problema processando o contexto fragmento a fragmento num ciclo semelhante a uma RNN e atualizando uma memória textual para a resposta final. No entanto, esta atualização de memória recorrente ingénua enfrenta duas desvantagens cruciais: (i) a memória pode explodir rapidamente porque pode atualizar indiscriminadamente, mesmo em fragmentos sem evidências; e (ii) o ciclo carece de um mecanismo de saída, levando a computação desnecessária mesmo após a recolha de evidências suficientes. Para resolver estas questões, propomos o GRU-Mem, que incorpora duas portas controladas por texto para um raciocínio de contexto longo mais estável e eficiente. Especificamente, no GRU-Mem, a memória só atualiza quando a porta de atualização está aberta e o ciclo recorrente termina imediatamente assim que a porta de saída se abre. Para dotar o modelo de tais capacidades, introduzimos dois sinais de recompensa, r^{atualizar} e r^{sair}, dentro de um esquema de Aprendizagem por Reforço de ponta a ponta, recompensando os comportamentos corretos de atualização e saída, respetivamente. Experiências em várias tarefas de raciocínio de contexto longo demonstram a eficácia e eficiência do GRU-Mem, que geralmente supera o MemAgent básico com acelerações de velocidade de inferência de até 400%.

English

While reasoning over long context is crucial for various real-world applications, it remains challenging for large language models (LLMs) as they suffer from performance degradation as the context length grows. Recent work MemAgent has tried to tackle this by processing context chunk-by-chunk in an RNN-like loop and updating a textual memory for final answering. However, this naive recurrent memory update faces two crucial drawbacks: (i) memory can quickly explode because it can update indiscriminately, even on evidence-free chunks; and (ii) the loop lacks an exit mechanism, leading to unnecessary computation after even sufficient evidence is collected. To address these issues, we propose GRU-Mem, which incorporates two text-controlled gates for more stable and efficient long-context reasoning. Specifically, in GRU-Mem, the memory only updates when the update gate is open and the recurrent loop will exit immediately once the exit gate is open. To endow the model with such capabilities, we introduce two reward signals r^{update} and r^{exit} within end-to-end RL, rewarding the correct updating and exiting behaviors respectively. Experiments on various long-context reasoning tasks demonstrate the effectiveness and efficiency of GRU-Mem, which generally outperforms the vanilla MemAgent with up to 400\% times inference speed acceleration.

Quando Memorizar e Quando Parar: Memória Recorrente Controlada para Raciocínio de Longo Contexto

When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

Resumo

Support