OPD-Evolver: Het cultiveren van een holistische agentevolver via on-policy distillatie

Samenvatting

Geheugen is een standaard substraat geworden voor zelf-evoluerende agenten, maar het bewaren van ervaring is niet hetzelfde als leren hoe je erdoor te evolueren. Bestaande geheugenagenten kunnen trajecten opslaan, reflecties ophalen of vaardigheden accumuleren, maar missen vaak de holistische competentie om nuttige ervaring te selecteren, erop te handelen, herbruikbare kennis te schrijven en een groeiende repository te onderhouden. Wij introduceren OPD-Evolver, een slow-fast co-evolutieframework dat zo'n agent-evolver cultiveert door middel van on-policy zelfdistillatie. In de snelle lus interageert OPD-Evolver met een vierlaagse geheugenhiërarchie om ervaring te lezen, te gebruiken, te schrijven en te onderhouden voor snelle testtijd-evolutie. In de langzame lus distilleren uitkomst-gekalibreerde geheugentoeschrijving en geprivilegieerde terugblik deze vier vaardigheden in het inzetbare beleid. Over multi-domein benchmarks heen overtreft OPD-Evolver geheugensystemen zoals ReasoningBank met tot 11,5%, en trainingsmethoden zoals Skill0 met ~5,8%. Verdere analyse toont aan dat OPD-Evolver hoogwaardige ervaring en geheugenbeheer internaliseert, waardoor OPD-Evolver-9B gigantische tegenhangers zoals Qwen3.5-397B-A17B en Step-3.5-Flash kan uitdagen, wijzend voorbij geheugenversterkte agenten naar werkelijk gekwalificeerde agent-evolveerders.

English

Memory has become a standard substrate for self-evolving agents, yet retaining experience is not the same as learning how to evolve through it. Existing memory agents can store trajectories, retrieve reflections, or accumulate skills, but often lack the holistic competence to select useful experience, act on it, write reusable knowledge, and maintain a growing repository. We introduce OPD-Evolver, a slow-fast co-evolution framework that cultivates such an agent evolver through on-policy self-distillation. In the fast loop, OPD-Evolver interacts with a four-level memory hierarchy to read, use, write, and maintain experience for rapid test-time evolution. In the slow loop, outcome-calibrated memory attribution and privileged hindsight distill these four abilities into the deployable policy. Across multi-domain benchmarks, OPD-Evolver surpasses memory systems such as ReasoningBank by up to 11.5%, and training-based methods such as Skill0 by ~5.8%. Further analysis shows that OPD-Evolver internalizes high-value experience and memory management, enabling OPD-Evolver-9B to challenge giant counterparts such as Qwen3.5-397B-A17B and Step-3.5-Flash, pointing beyond memory-augmented agents toward genuinely qualified agent evolvers.