OpenSkill: Самоэволюция в открытом мире для LLM-агентов
OpenSkill: Open-World Self-Evolution for LLM Agents
June 4, 2026
Авторы: Zhiling Yan, Dingjie Song, Hanrong Zhang, Wei Liang, Yuxuan Zhang, Yutong Dai, Lifang He, Philip S. Yu, Ran Xu, Xiang Li, Lichao Sun
cs.AI
Аннотация
Саморазвивающиеся агенты требуют адаптации после развертывания, однако существующие подходы предполагают наличие работоспособного цикла обучения, такого как подобранные навыки, успешные траектории или сигналы верификатора. В реальных развертываниях в открытом мире может не быть ничего из этого, а только промпт задачи. В данной работе мы исследуем саморазвитие в открытом мире, когда агент должен с нуля формировать как свои навыки, так и собственные сигналы верификации, используя ресурсы открытого мира, но без какого-либо контроля целевой задачи. Мы предлагаем OpenSkill — фреймворк, который запускает этот цикл: он извлекает обоснованные знания и якоря верификации из документации, репозиториев и веба, синтезирует их в переносимые навыки и совершенствует эти навыки на самостоятельно созданных виртуальных задачах, основанных на якорях, а не на целевых ответах. Таким образом, открытый мир предоставляет как знания для изучения, так и независимую от контроля среду для практики, при этом контроль целевой задачи зарезервирован для итоговой оценки. На трех бенчмарках и с двумя целевыми агентами OpenSkill достигает наилучшего автоматизированного показателя прохождения, соблюдая ограничение на отсутствие контроля. Анализ показывает, что его навыки переносятся между моделями без специфической для модели адаптации, а самостоятельно созданный верификатор согласуется с фактическими результатами, хотя никогда к ним не обращается.
English
Self-evolving agents requires adaptation after deployment, but existing approaches assume a usable learning loop, such as curated skills, successful trajectories, or verifier signals. Real open-world deployments may provide none of these, offering only a task prompt. In this work, we study open-world self-evolution, where an agent must build both its skills and its own verification signals from scratch, using open-world resources but no target-task supervision. We propose OpenSkill, a framework that bootstraps this loop: it acquires grounded knowledge and verification anchors from documentation, repositories, and the web, synthesizes them into transferable skills, and refines those skills against self-built virtual tasks grounded in the anchors rather than in target answers. The open world thus supplies both the knowledge to be learned and a supervision-independent practice environment, with target-task supervision reserved for final evaluation. Across three benchmarks and two target agents, OpenSkill attains the best automated pass rate while satisfying the no-supervision constraint. Analysis shows its skills transfer across models without model-specific adaptation, and its self-built verifier aligns with ground-truth outcomes despite never accessing them.