Metacognitieve geheugenpolicy-optimalisatie voor LLM-agenten met lange horizon

Samenvatting

Geheugenverbeterde LLM-agenten pakken complexe lange-termijntaken aan door interactietrajecten recursief samen te vatten in compact geheugen. Bestaande benaderingen trainen deze geheugenbeleidsregels echter doorgaans met uitkomstgebaseerd versterkend leren, waarbij niet wordt gelokaliseerd waar de tussentijdse geheugenkwaliteit verslechtert. Naarmate interacties vorderen, verwijderen dubbelzinnige recursieve samenvattingen progressief taakrelevante informatie en introduceren ze semantische ruis. Dit verergert de geloofsafwijking, vertroebelt de schatting van de agent van de latente taaktoestand en leidt uiteindelijk tot ontsporing van lange-termijnredeneringen. Wij betogen daarom dat geheugenoptimalisatie zich niet alleen moet richten op succes op trajectniveau, maar op de helderheid van het geloof dat door tussentijdse samenvattingen wordt geïnduceerd. Hiertoe introduceren we Belief Entropy, een zelfsuperviserende proxy die onderzoekt hoe onzeker het model blijft over de latente taaktoestand gegeven het huidige geheugen. Op basis van deze proxy stellen we Metacognitieve Geheugenbeleidsoptimalisatie (MMPO) voor. In plaats van alleen te vertrouwen op schaarse uitkomstgebaseerde signalen, biedt MMPO fijnmazige, geheugenspecifieke supervisie door expliciet samenvattingen te bestraffen die hoge epistemische onzekerheid induceren. Experimenten tonen aan dat MMPO consistent beter presteert dan bestaande methoden op diverse lange-termijntaken, met behoud van 97,1% prestatie zelfs bij opschaling naar contexten van 1,75M tokens.

English

Memory-augmented LLM agents tackle complex long-horizon tasks by recursively summarizing interaction trajectories into compact memory. However, existing approaches typically train these memory policies using outcome-based reinforcement learning, failing to localize where intermediate memory quality degrades. As interactions unfold, ambiguous recursive summaries progressively discard task-relevant information and introduce semantic noise. This exacerbates belief deviation, obscuring the agent's estimate of the latent task state and ultimately derailing long-horizon reasoning. We therefore argue that memory optimization should focus not merely on trajectory-level success, but on the clarity of the belief induced by intermediate summaries. To this end, we introduce Belief Entropy, a self-supervised proxy that probes how uncertain the model remains about the latent task state given its current memory. Based on this proxy, we propose Metacognitive Memory Policy Optimization (MMPO). Instead of relying only on sparse outcome-based signals, MMPO provides fine-grained, memory-specific supervision via explicitly penalizing summaries that induce high epistemic uncertainty. Experiments show that MMPO consistently outperforms existing methods on diverse long-horizon tasks, maintaining 97.1% performance even when scaled to 1.75M-token contexts.