ChatPaper.aiChatPaper

윤주에이전트 기술 보고서: 개방형 과제를 위한 완전 재현 가능, 제로-스타트 현장 자기 진화 에이전트 시스템

Yunjue Agent Tech Report: A Fully Reproducible, Zero-Start In-Situ Self-Evolving Agent System for Open-Ended Tasks

January 26, 2026
저자: Haotian Li, Shijun Yang, Weizhen Qi, Silei Zhao, Rui Hua, Mingzhu Song, Xiaojian Yang, Chao Peng
cs.AI

초록

기존 에이전트 시스템은 작업 분포가 지속적으로 변화하고 외부 감독이 부족한 개방형 환경에서 어려움을 겪는 경우가 많습니다. 정적 도구 세트나 오프라인 학습에 의존하는 기존 방식은 이러한 동적 변화를 따라가지 못해 시스템의 능력 한계가 경직되고 불확실한 상태로 남아 있습니다. 이를 해결하기 위해 우리는 현장 자기 진화 패러다임을 제안합니다. 이 접근법은 순차적 작업 상호작용을 지속적인 경험 흐름으로 간주하여, 시스템이 정답 레이블 없이도 단기 실행 피드백을 장기적이고 재사용 가능한 능력으로 승화시킬 수 있도록 합니다. 이 프레임워크 내에서 우리는 검증 가능한 이진 피드백 신호를 제공하는 도구 진화를 능력 확장의 핵심 경로로 규정합니다. 이를 바탕으로 우리는 새로운 도전 과제를 해결하기 위해 도구를 반복적으로 합성, 최적화, 재사용하는 윤류(雲鷺) 에이전트 시스템을 개발했습니다. 진화 효율을 최적화하기 위해 우리는 추가로 병렬 배치 진화 전략을 도입했습니다. 제로-스타트 설정 하에 다섯 가지 다양한 벤치마크에서 수행한 실증 평가에서 독점 베이스라인 대비 상당한 성능 향상을 입증했습니다. 또한 보완적인 웜-스타트 평가를 통해 축적된 일반 지식이 새로운 도메인으로 원활하게 전이될 수 있음을 확인했습니다. 마지막으로, 우리는 기존 최적화에서의 훈련 손실과 유사한 기능을 하는 진화 수렴 모니터링을 위한 새로운 지표를 제안합니다. 우리는 회복력 있는 자기 진화 인텔리전스 연구의 발전을 위해 코드베이스, 시스템 트레이스 및 진화된 도구를 오픈소스로 공개합니다.
English
Conventional agent systems often struggle in open-ended environments where task distributions continuously drift and external supervision is scarce. Their reliance on static toolsets or offline training lags behind these dynamics, leaving the system's capability boundaries rigid and unknown. To address this, we propose the In-Situ Self-Evolving paradigm. This approach treats sequential task interactions as a continuous stream of experience, enabling the system to distill short-term execution feedback into long-term, reusable capabilities without access to ground-truth labels. Within this framework, we identify tool evolution as the critical pathway for capability expansion, which provides verifiable, binary feedback signals. Within this framework, we develop Yunjue Agent, a system that iteratively synthesizes, optimizes, and reuses tools to navigate emerging challenges. To optimize evolutionary efficiency, we further introduce a Parallel Batch Evolution strategy. Empirical evaluations across five diverse benchmarks under a zero-start setting demonstrate significant performance gains over proprietary baselines. Additionally, complementary warm-start evaluations confirm that the accumulated general knowledge can be seamlessly transferred to novel domains. Finally, we propose a novel metric to monitor evolution convergence, serving as a function analogous to training loss in conventional optimization. We open-source our codebase, system traces, and evolved tools to facilitate future research in resilient, self-evolving intelligence.
PDF72February 3, 2026