OPD-Evolver: Культивирование целостной системы эволюции агентов с помощью внутриполитической дистилляции

Аннотация

Память стала стандартной основой для самоэволюционирующих агентов, однако сохранение опыта не равнозначно обучению эволюции через него. Существующие агенты памяти могут хранить траектории, извлекать размышления или накапливать навыки, но часто не обладают целостной компетенцией для выбора полезного опыта, действия на его основе, записи повторно используемых знаний и поддержания растущего репозитория. Мы представляем OPD-Evolver — структуру медленно-быстрой совместной эволюции, которая развивает такого эволюционирующего агента посредством собственной дистилляции на политике. В быстром цикле OPD-Evolver взаимодействует с четырехуровневой иерархией памяти для чтения, использования, записи и поддержания опыта с целью быстрой эволюции во время тестирования. В медленном цикле калиброванная по результатам атрибуция памяти и привилегированное ретроспективное знание дистиллируют эти четыре способности в развертываемую политику. На многодоменных бенчмарках OPD-Evolver превосходит системы памяти, такие как ReasoningBank, на 11,5%, и методы на основе обучения, такие как Skill0, на ~5,8%. Дальнейший анализ показывает, что OPD-Evolver интернализует ценный опыт и управление памятью, позволяя OPD-Evolver-9B бросать вызов гигантским аналогам, таким как Qwen3.5-397B-A17B и Step-3.5-Flash, указывая путь за пределы агентов с дополненной памятью к действительно квалифицированным эволюционирующим агентам.

English

Memory has become a standard substrate for self-evolving agents, yet retaining experience is not the same as learning how to evolve through it. Existing memory agents can store trajectories, retrieve reflections, or accumulate skills, but often lack the holistic competence to select useful experience, act on it, write reusable knowledge, and maintain a growing repository. We introduce OPD-Evolver, a slow-fast co-evolution framework that cultivates such an agent evolver through on-policy self-distillation. In the fast loop, OPD-Evolver interacts with a four-level memory hierarchy to read, use, write, and maintain experience for rapid test-time evolution. In the slow loop, outcome-calibrated memory attribution and privileged hindsight distill these four abilities into the deployable policy. Across multi-domain benchmarks, OPD-Evolver surpasses memory systems such as ReasoningBank by up to 11.5%, and training-based methods such as Skill0 by ~5.8%. Further analysis shows that OPD-Evolver internalizes high-value experience and memory management, enabling OPD-Evolver-9B to challenge giant counterparts such as Qwen3.5-397B-A17B and Step-3.5-Flash, pointing beyond memory-augmented agents toward genuinely qualified agent evolvers.