Yunjue Agent 技術レポート:オープンエンドタスクのための完全再現可能・ゼロスタート・その場自己進化型エージェントシステム
Yunjue Agent Tech Report: A Fully Reproducible, Zero-Start In-Situ Self-Evolving Agent System for Open-Ended Tasks
January 26, 2026
著者: Haotian Li, Shijun Yang, Weizhen Qi, Silei Zhao, Rui Hua, Mingzhu Song, Xiaojian Yang, Chao Peng
cs.AI
要旨
従来のエージェントシステムは、タスク分布が継続的に変化し外部監視が乏しい開放環境においてしばしば困難に直面する。静的なツールセットやオフライン学習への依存はこうした動的環境に対応できず、システムの能力境界は硬直的で未知のままとなる。この問題に対処するため、我々はIn-Situ Self-Evolving(その場自己進化)パラダイムを提案する。本アプローチは連続的なタスク相互作用を経験の連続ストリームとして扱い、正解ラベルへのアクセスなしに短期実行フィードバックを長期的で再利用可能な能力へ蒸留する。この枠組みにおいて、検証可能な二値フィードバック信号を提供するツール進化を能力拡張の重要な経路と位置付ける。本枠組みに基づき、新たな課題に対処するためにツールを反復的に合成・最適化・再利用するYunjue Agentを開発した。進化効率を最適化するため、Parallel Batch Evolution(並列バッチ進化)戦略をさらに導入する。ゼロスタート設定における5種類のベンチマークでの実証評価では、既存のベースラインを大幅に上回る性能向上を実証した。補完的なウォームスタート評価では、蓄積された汎用知識が新規領域へシームレスに転移可能であることを確認した。最後に、従来の最適化における訓練損失と同等の機能を果たす進化収束を監視する新規指標を提案する。耐障害性のある自己進化型知能の将来研究促進のため、コードベース・システムトレース・進化ツールをオープンソース化する。
English
Conventional agent systems often struggle in open-ended environments where task distributions continuously drift and external supervision is scarce. Their reliance on static toolsets or offline training lags behind these dynamics, leaving the system's capability boundaries rigid and unknown. To address this, we propose the In-Situ Self-Evolving paradigm. This approach treats sequential task interactions as a continuous stream of experience, enabling the system to distill short-term execution feedback into long-term, reusable capabilities without access to ground-truth labels. Within this framework, we identify tool evolution as the critical pathway for capability expansion, which provides verifiable, binary feedback signals. Within this framework, we develop Yunjue Agent, a system that iteratively synthesizes, optimizes, and reuses tools to navigate emerging challenges. To optimize evolutionary efficiency, we further introduce a Parallel Batch Evolution strategy. Empirical evaluations across five diverse benchmarks under a zero-start setting demonstrate significant performance gains over proprietary baselines. Additionally, complementary warm-start evaluations confirm that the accumulated general knowledge can be seamlessly transferred to novel domains. Finally, we propose a novel metric to monitor evolution convergence, serving as a function analogous to training loss in conventional optimization. We open-source our codebase, system traces, and evolved tools to facilitate future research in resilient, self-evolving intelligence.