제로 박사: 훈련 데이터 없이 자기 진화하는 검색 에이전트
Dr. Zero: Self-Evolving Search Agents without Training Data
January 11, 2026
저자: Zhenrui Yue, Kartikeya Upasani, Xianjun Yang, Suyu Ge, Shaoliang Nie, Yuning Mao, Zhe Liu, Dong Wang
cs.AI
초록
고품질 데이터 확보가 점점 어려워지면서 데이터 없는 자기 진화가 유망한 패러다임으로 부상하고 있다. 이 접근법은 대규모 언어 모델(LLM)이 복잡한 문제를 자율적으로 생성하고 해결함으로써 추론 능력을 향상시킬 수 있게 한다. 그러나 다중 턴 검색 에이전트는 질문 다양성의 한계와 다단계 추론 및 도구 사용에 필요한 막대한 컴퓨팅 자원으로 인해 데이터 없는 자기 진화 환경에서 어려움을 겪는다. 본 연구에서는 학습 데이터 없이도 검색 에이전트가 효과적으로 자기 진화할 수 있는 Dr. Zero 프레임워크를 소개한다. 구체적으로, 우리는 동일한 기본 모델에서 초기화된 솔버를 훈련시키기 위해 제안자가 다양한 질문을 생성하는 자기 진화 피드백 루프를 설계했다. 솔버가 진화함에 따라 제안자는 점점 더 어렵지만 해결 가능한 과제를 생성하도록 유도되어 두 에이전트를 모두 정제하는 자동화된 커리큘럼을 구축한다. 훈련 효율을 높이기 위해 우리는 홉 그룹화 상대 정책 최적화(HRPO)를 도입했다. 이 방법은 구조적으로 유사한 질문들을 클러스터링하여 그룹 수준 기준선을 구성함으로써 각 질문의 개별 난이도와 해결 가능성 평가에 필요한 샘플링 오버헤드를 효과적으로 최소화한다. 그 결과 HRPO는 성능이나 안정성을 저하시키지 않으면서 솔버 훈련에 필요한 컴퓨팅 자원을 크게 절감한다. 폭넓은 실험 결과는 데이터 없는 Dr. Zero가 완전 지도 학습된 검색 에이전트와 동등하거나 그 이상의 성능을 보여주며, 복잡한 추론 및 검색 능력이 순전히 자기 진화를 통해 발현될 수 있음을 입증한다.
English
As high-quality data becomes increasingly difficult to obtain, data-free self-evolution has emerged as a promising paradigm. This approach allows large language models (LLMs) to autonomously generate and solve complex problems, thereby improving their reasoning capabilities. However, multi-turn search agents struggle in data-free self-evolution due to the limited question diversity and the substantial compute required for multi-step reasoning and tool using. In this work, we introduce Dr. Zero, a framework enabling search agents to effectively self-evolve without any training data. In particular, we design a self-evolution feedback loop where a proposer generates diverse questions to train a solver initialized from the same base model. As the solver evolves, it incentivizes the proposer to produce increasingly difficult yet solvable tasks, thus establishing an automated curriculum to refine both agents. To enhance training efficiency, we also introduce hop-grouped relative policy optimization (HRPO). This method clusters structurally similar questions to construct group-level baselines, effectively minimizing the sampling overhead in evaluating each query's individual difficulty and solvability. Consequently, HRPO significantly reduces the compute requirements for solver training without compromising performance or stability. Extensive experiment results demonstrate that the data-free Dr. Zero matches or surpasses fully supervised search agents, proving that complex reasoning and search capabilities can emerge solely through self-evolution.