Optimisation métacognitive de la politique de mémoire pour agents LLM à long horizon

Résumé

Les agents LLM à mémoire augmentée abordent des tâches complexes à long horizon en résumant récursivement les trajectoires d'interaction en une mémoire compacte. Cependant, les approches existantes entraînent généralement ces politiques de mémoire par apprentissage par renforcement basé sur les résultats, sans parvenir à localiser où la qualité de la mémoire intermédiaire se dégrade. Au fur et à mesure que les interactions se déroulent, des résumés récursifs ambigus éliminent progressivement les informations pertinentes pour la tâche et introduisent un bruit sémantique. Cela exacerbe la déviation de la croyance, obscurcissant l'estimation par l'agent de l'état latent de la tâche et faisant finalement dérailler le raisonnement à long horizon. Nous soutenons donc que l'optimisation de la mémoire ne devrait pas se concentrer uniquement sur le succès au niveau de la trajectoire, mais sur la clarté de la croyance induite par les résumés intermédiaires. À cette fin, nous introduisons l'entropie de croyance (Belief Entropy), un proxy auto-supervisé qui sonde l'incertitude persistante du modèle concernant l'état latent de la tâche étant donné sa mémoire actuelle. Sur la base de ce proxy, nous proposons l'optimisation de la politique de mémoire métacognitive (MMPO). Au lieu de se fier uniquement à des signaux épars basés sur les résultats, MMPO fournit une supervision fine et spécifique à la mémoire en pénalisant explicitement les résumés qui induisent une incertitude épistémique élevée. Les expériences montrent que MMPO surpasse systématiquement les méthodes existantes sur diverses tâches à long horizon, maintenant des performances de 97,1 % même lorsqu'il est étendu à des contextes de 1,75 million de tokens.

English

Memory-augmented LLM agents tackle complex long-horizon tasks by recursively summarizing interaction trajectories into compact memory. However, existing approaches typically train these memory policies using outcome-based reinforcement learning, failing to localize where intermediate memory quality degrades. As interactions unfold, ambiguous recursive summaries progressively discard task-relevant information and introduce semantic noise. This exacerbates belief deviation, obscuring the agent's estimate of the latent task state and ultimately derailing long-horizon reasoning. We therefore argue that memory optimization should focus not merely on trajectory-level success, but on the clarity of the belief induced by intermediate summaries. To this end, we introduce Belief Entropy, a self-supervised proxy that probes how uncertain the model remains about the latent task state given its current memory. Based on this proxy, we propose Metacognitive Memory Policy Optimization (MMPO). Instead of relying only on sparse outcome-based signals, MMPO provides fine-grained, memory-specific supervision via explicitly penalizing summaries that induce high epistemic uncertainty. Experiments show that MMPO consistently outperforms existing methods on diverse long-horizon tasks, maintaining 97.1% performance even when scaled to 1.75M-token contexts.