OPD-Evolver: Kultivierung eines ganzheitlichen Agenten-Evolvers durch On-Policy-Destillation

Zusammenfassung

Gedächtnis ist zu einem standardmäßigen Substrat für sich selbst evolvierende Agenten geworden, doch Erfahrungen zu behalten ist nicht dasselbe wie zu lernen, wie man sich dadurch weiterentwickelt. Bestehende Gedächtnisagenten können Trajektorien speichern, Reflexionen abrufen oder Fähigkeiten ansammeln, aber es fehlt ihnen oft an der ganzheitlichen Kompetenz, nützliche Erfahrungen auszuwählen, daraus zu handeln, wiederverwendbares Wissen zu schreiben und ein wachsendes Repository zu pflegen. Wir stellen OPD-Evolver vor, ein Slow-Fast-Koevolutionsframework, das einen solchen Agenten-Evolver durch On-Policy-Selbstdestillation kultiviert. In der schnellen Schleife interagiert OPD-Evolver mit einer vierstufigen Gedächtnishierarchie, um Erfahrungen zu lesen, zu nutzen, zu schreiben und für eine schnelle Testzeit-Evolution zu erhalten. In der langsamen Schleife destillieren ergebnis-kalibrierte Gedächtniszuordnung und privilegierte Rückschau diese vier Fähigkeiten in die einsetzbare Policy. In Benchmarks über mehrere Domänen hinweg übertrifft OPD-Evolver Gedächtnissysteme wie ReasoningBank um bis zu 11,5% und trainingsbasierte Methoden wie Skill0 um ~5,8%. Weitere Analysen zeigen, dass OPD-Evolver hochwertige Erfahrungen und Gedächtnisverwaltung verinnerlicht, was es OPD-Evolver-9B ermöglicht, riesige Gegenstücke wie Qwen3.5-397B-A17B und Step-3.5-Flash herauszufordern, und damit über gedächtnisgestützte Agenten hinaus auf wirklich qualifizierte Agenten-Evolver hinweist.

English

Memory has become a standard substrate for self-evolving agents, yet retaining experience is not the same as learning how to evolve through it. Existing memory agents can store trajectories, retrieve reflections, or accumulate skills, but often lack the holistic competence to select useful experience, act on it, write reusable knowledge, and maintain a growing repository. We introduce OPD-Evolver, a slow-fast co-evolution framework that cultivates such an agent evolver through on-policy self-distillation. In the fast loop, OPD-Evolver interacts with a four-level memory hierarchy to read, use, write, and maintain experience for rapid test-time evolution. In the slow loop, outcome-calibrated memory attribution and privileged hindsight distill these four abilities into the deployable policy. Across multi-domain benchmarks, OPD-Evolver surpasses memory systems such as ReasoningBank by up to 11.5%, and training-based methods such as Skill0 by ~5.8%. Further analysis shows that OPD-Evolver internalizes high-value experience and memory management, enabling OPD-Evolver-9B to challenge giant counterparts such as Qwen3.5-397B-A17B and Step-3.5-Flash, pointing beyond memory-augmented agents toward genuinely qualified agent evolvers.