Когда запоминать, а когда остановиться: управляемая рекуррентная память для рассуждений в длинных контекстах

Аннотация

Хотя рассуждения на основе длинного контекста крайне важны для различных практических приложений, они остаются сложной задачей для больших языковых моделей (LLM), поскольку их производительность снижается по мере увеличения длины контекста. Недавно предложенный метод MemAgent попытался решить эту проблему, обрабатывая контекст по фрагментам в RNN-подобном цикле и обновляя текстовую память для формирования окончательного ответа. Однако эта наивная рекуррентная схема обновления памяти имеет два существенных недостатка: (i) память может быстро разрастаться, поскольку обновление происходит бесконтрольно, даже на фрагментах, не содержащих полезной информации; (ii) цикл не имеет механизма выхода, что приводит к избыточным вычислениям даже после сбора достаточных свидетельств. Для решения этих проблем мы предлагаем модель GRU-Mem, в которую встроены два управляемых текстом затвора для более стабильных и эффективных рассуждений в длинном контексте. А именно, в GRU-Mem память обновляется только когда открыт затвор обновления, а рекуррентный цикл немедленно завершается при открытии затвора выхода. Для наделения модели такими возможностями мы вводим две сигнала поощрения, r^{update} и r^{exit}, в рамках сквозного обучения с подкреплением, награждая за корректное поведение при обновлении и выходе соответственно. Эксперименты на различных задачах рассуждений в длинном контексте демонстрируют эффективность и производительность GRU-Mem, которая в целом превосходит базовый MemAgent с ускорением вывода до 400%.

English

While reasoning over long context is crucial for various real-world applications, it remains challenging for large language models (LLMs) as they suffer from performance degradation as the context length grows. Recent work MemAgent has tried to tackle this by processing context chunk-by-chunk in an RNN-like loop and updating a textual memory for final answering. However, this naive recurrent memory update faces two crucial drawbacks: (i) memory can quickly explode because it can update indiscriminately, even on evidence-free chunks; and (ii) the loop lacks an exit mechanism, leading to unnecessary computation after even sufficient evidence is collected. To address these issues, we propose GRU-Mem, which incorporates two text-controlled gates for more stable and efficient long-context reasoning. Specifically, in GRU-Mem, the memory only updates when the update gate is open and the recurrent loop will exit immediately once the exit gate is open. To endow the model with such capabilities, we introduce two reward signals r^{update} and r^{exit} within end-to-end RL, rewarding the correct updating and exiting behaviors respectively. Experiments on various long-context reasoning tasks demonstrate the effectiveness and efficiency of GRU-Mem, which generally outperforms the vanilla MemAgent with up to 400\% times inference speed acceleration.

Когда запоминать, а когда остановиться: управляемая рекуррентная память для рассуждений в длинных контекстах

When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

Аннотация

Support