Metakognitive Gedächtnis-Policy-Optimierung für LLM-Agenten mit langem Horizont

Zusammenfassung

Gedächtnisgestützte LLM-Agenten bewältigen komplexe langfristige Aufgaben, indem sie Interaktionsverläufe rekursiv in kompakte Gedächtnisrepräsentationen zusammenfassen. Allerdings trainieren bestehende Ansätze diese Gedächtnisstrategien in der Regel mittels ergebnisbasiertem Reinforcement Learning, ohne lokalisieren zu können, wo die Qualität der Zwischenerinnerungen nachlässt. Mit fortschreitenden Interaktionen verwerfen mehrdeutige rekursive Zusammenfassungen zunehmend aufgabenrelevante Informationen und führen semantisches Rauschen ein. Dies verstärkt die Abweichung der Überzeugung, trübt die Schätzung des latenten Aufgabenstatus durch den Agenten und bringt letztlich das langfristige Denken aus der Bahn. Daher argumentieren wir, dass sich die Gedächtnisoptimierung nicht nur auf den Erfolg auf Trajektorienebene konzentrieren sollte, sondern auf die Klarheit der durch Zwischenzusammenfassungen induzierten Überzeugung. Zu diesem Zweck führen wir die Belief-Entropie ein, einen selbstüberwachten Proxy, der untersucht, wie unsicher das Modell hinsichtlich des latenten Aufgabenstatus angesichts seines aktuellen Gedächtnisses bleibt. Auf der Grundlage dieses Proxys schlagen wir die Metakognitive Gedächtnisstrategieoptimierung (MMPO) vor. Anstatt sich nur auf spärliche ergebnisbasierte Signale zu stützen, bietet MMPO eine feinkörnige, gedächtnisspezifische Überwachung, indem es Zusammenfassungen, die eine hohe epistemische Unsicherheit induzieren, explizit bestraft. Experimente zeigen, dass MMPO bestehende Methoden bei verschiedenen langfristigen Aufgaben durchweg übertrifft und selbst bei Skalierung auf Kontexte mit 1,75 Millionen Token eine Leistung von 97,1% beibehält.

English

Memory-augmented LLM agents tackle complex long-horizon tasks by recursively summarizing interaction trajectories into compact memory. However, existing approaches typically train these memory policies using outcome-based reinforcement learning, failing to localize where intermediate memory quality degrades. As interactions unfold, ambiguous recursive summaries progressively discard task-relevant information and introduce semantic noise. This exacerbates belief deviation, obscuring the agent's estimate of the latent task state and ultimately derailing long-horizon reasoning. We therefore argue that memory optimization should focus not merely on trajectory-level success, but on the clarity of the belief induced by intermediate summaries. To this end, we introduce Belief Entropy, a self-supervised proxy that probes how uncertain the model remains about the latent task state given its current memory. Based on this proxy, we propose Metacognitive Memory Policy Optimization (MMPO). Instead of relying only on sparse outcome-based signals, MMPO provides fine-grained, memory-specific supervision via explicitly penalizing summaries that induce high epistemic uncertainty. Experiments show that MMPO consistently outperforms existing methods on diverse long-horizon tasks, maintaining 97.1% performance even when scaled to 1.75M-token contexts.