OPD-Evolver : cultiver un évolueur holistique d'agent via la distillation sur politique

Résumé

La mémoire est devenue un substrat standard pour les agents auto-évolutifs, mais retenir l'expérience n'est pas la même chose qu'apprendre à évoluer à travers elle. Les agents à mémoire existants peuvent stocker des trajectoires, récupérer des réflexions ou accumuler des compétences, mais manquent souvent de la compétence holistique pour sélectionner l'expérience utile, agir en conséquence, écrire des connaissances réutilisables et maintenir un référentiel croissant. Nous présentons OPD-Evolver, un cadre de co-évolution lente-rapide qui cultive un tel évoluteur d'agent via l'auto-distillation sur politique. Dans la boucle rapide, OPD-Evolver interagit avec une hiérarchie de mémoire à quatre niveaux pour lire, utiliser, écrire et maintenir l'expérience en vue d'une évolution rapide au moment du test. Dans la boucle lente, l'attribution de mémoire calibrée par les résultats et la rétrospective privilégiée distillent ces quatre capacités dans la politique déployable. Sur des benchmarks multi-domaines, OPD-Evolver dépasse des systèmes de mémoire tels que ReasoningBank jusqu'à 11,5 %, et des méthodes basées sur l'entraînement telles que Skill0 d'environ 5,8 %. Une analyse plus poussée montre que OPD-Evolver internalise l'expérience de haute valeur et la gestion de la mémoire, permettant à OPD-Evolver-9B de défier des homologues géants tels que Qwen3.5-397B-A17B et Step-3.5-Flash, pointant au-delà des agents augmentés par la mémoire vers des évoluteurs d'agent véritablement qualifiés.

English

Memory has become a standard substrate for self-evolving agents, yet retaining experience is not the same as learning how to evolve through it. Existing memory agents can store trajectories, retrieve reflections, or accumulate skills, but often lack the holistic competence to select useful experience, act on it, write reusable knowledge, and maintain a growing repository. We introduce OPD-Evolver, a slow-fast co-evolution framework that cultivates such an agent evolver through on-policy self-distillation. In the fast loop, OPD-Evolver interacts with a four-level memory hierarchy to read, use, write, and maintain experience for rapid test-time evolution. In the slow loop, outcome-calibrated memory attribution and privileged hindsight distill these four abilities into the deployable policy. Across multi-domain benchmarks, OPD-Evolver surpasses memory systems such as ReasoningBank by up to 11.5%, and training-based methods such as Skill0 by ~5.8%. Further analysis shows that OPD-Evolver internalizes high-value experience and memory management, enabling OPD-Evolver-9B to challenge giant counterparts such as Qwen3.5-397B-A17B and Step-3.5-Flash, pointing beyond memory-augmented agents toward genuinely qualified agent evolvers.