ゼロ博士:学習データなしで自己進化する検索エージェント
Dr. Zero: Self-Evolving Search Agents without Training Data
January 11, 2026
著者: Zhenrui Yue, Kartikeya Upasani, Xianjun Yang, Suyu Ge, Shaoliang Nie, Yuning Mao, Zhe Liu, Dong Wang
cs.AI
要旨
高品質なデータの入手が困難になるにつれ、データ不要の自己進化が有望なパラダイムとして登場している。このアプローチにより、大規模言語モデル(LLM)は複雑な問題を自律的に生成・解決し、推論能力を向上させることができる。しかし、マルチターン検索エージェントは、質問の多様性の限界や、多段階推論とツール利用に必要な多大な計算コストのため、データ不要の自己進化において苦戦している。本研究では、検索エージェントが訓練データを一切必要とせず効果的に自己進化を実現するフレームワーク「Dr. Zero」を提案する。具体的には、同一の基盤モデルから初期化されたソルバーを訓練するため、提案者が多様な質問を生成する自己進化フィードバックループを設計する。ソルバーが進化するにつれ、提案者は次第に難易度が高く解決可能な課題を作成するよう誘導され、両エージェントを洗練する自動化されたカリキュラムが確立される。訓練効率を向上させるため、ホップグループ化相対方策最適化(HRPO)も導入する。この手法は構造的に類似した質問をクラスタリングし、グループレベルのベースラインを構築することで、各クエリの難易度と解決可能性を個別に評価する際のサンプリングオーバーヘッドを効果的に最小化する。その結果、HRPOは性能や安定性を損なうことなく、ソルバー訓練に必要な計算量を大幅に削減する。大規模な実験結果により、データ不要のDr. Zeroが完全教師ありの検索エージェントに匹敵あるいは凌駕する性能を発揮し、複雑な推論と検索能力が自己進化のみを通じて出現しうることを実証した。
English
As high-quality data becomes increasingly difficult to obtain, data-free self-evolution has emerged as a promising paradigm. This approach allows large language models (LLMs) to autonomously generate and solve complex problems, thereby improving their reasoning capabilities. However, multi-turn search agents struggle in data-free self-evolution due to the limited question diversity and the substantial compute required for multi-step reasoning and tool using. In this work, we introduce Dr. Zero, a framework enabling search agents to effectively self-evolve without any training data. In particular, we design a self-evolution feedback loop where a proposer generates diverse questions to train a solver initialized from the same base model. As the solver evolves, it incentivizes the proposer to produce increasingly difficult yet solvable tasks, thus establishing an automated curriculum to refine both agents. To enhance training efficiency, we also introduce hop-grouped relative policy optimization (HRPO). This method clusters structurally similar questions to construct group-level baselines, effectively minimizing the sampling overhead in evaluating each query's individual difficulty and solvability. Consequently, HRPO significantly reduces the compute requirements for solver training without compromising performance or stability. Extensive experiment results demonstrate that the data-free Dr. Zero matches or surpasses fully supervised search agents, proving that complex reasoning and search capabilities can emerge solely through self-evolution.