Cuándo memorizar y cuándo detenerse: Memoria recurrente con compuertas para el razonamiento de contexto largo

Resumen

Si bien el razonamiento sobre contextos extensos es crucial para diversas aplicaciones del mundo real, sigue siendo un desafío para los modelos de lenguaje grandes (LLM), ya que sufren una degradación del rendimiento a medida que aumenta la longitud del contexto. Trabajos recientes como MemAgent han intentado abordar este problema procesando el contexto fragmento por fragmento en un bucle similar a una RNN y actualizando una memoria textual para la respuesta final. Sin embargo, esta actualización de memoria recurrente ingenua presenta dos inconvenientes cruciales: (i) la memoria puede expandirse rápidamente porque puede actualizarse de manera indiscriminada, incluso en fragmentos sin evidencia; y (ii) el bucle carece de un mecanismo de salida, lo que conduce a cálculos innecesarios incluso después de que se ha recopilado evidencia suficiente. Para abordar estos problemas, proponemos GRU-Mem, que incorpora dos compuertas controladas por texto para un razonamiento de contexto largo más estable y eficiente. Específicamente, en GRU-Mem, la memoria solo se actualiza cuando la compuerta de actualización está abierta y el bucle recurrente terminará inmediatamente una vez que la compuerta de salida se abra. Para dotar al modelo de dichas capacidades, introducimos dos señales de recompensa, r^{actualizar} y r^{salir}, dentro del aprendizaje por refuerzo de extremo a extremo, premiando los comportamientos correctos de actualización y salida, respectivamente. Los experimentos en varias tareas de razonamiento de contexto largo demuestran la efectividad y eficiencia de GRU-Mem, que generalmente supera al MemAgent básico con aceleraciones de velocidad de inferencia de hasta un 400%.

English

While reasoning over long context is crucial for various real-world applications, it remains challenging for large language models (LLMs) as they suffer from performance degradation as the context length grows. Recent work MemAgent has tried to tackle this by processing context chunk-by-chunk in an RNN-like loop and updating a textual memory for final answering. However, this naive recurrent memory update faces two crucial drawbacks: (i) memory can quickly explode because it can update indiscriminately, even on evidence-free chunks; and (ii) the loop lacks an exit mechanism, leading to unnecessary computation after even sufficient evidence is collected. To address these issues, we propose GRU-Mem, which incorporates two text-controlled gates for more stable and efficient long-context reasoning. Specifically, in GRU-Mem, the memory only updates when the update gate is open and the recurrent loop will exit immediately once the exit gate is open. To endow the model with such capabilities, we introduce two reward signals r^{update} and r^{exit} within end-to-end RL, rewarding the correct updating and exiting behaviors respectively. Experiments on various long-context reasoning tasks demonstrate the effectiveness and efficiency of GRU-Mem, which generally outperforms the vanilla MemAgent with up to 400\% times inference speed acceleration.

Cuándo memorizar y cuándo detenerse: Memoria recurrente con compuertas para el razonamiento de contexto largo

When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

Resumen

Support