Dr. Zero: Sich selbst entwickelnde Suchagenten ohne Trainingsdaten
Dr. Zero: Self-Evolving Search Agents without Training Data
January 11, 2026
papers.authors: Zhenrui Yue, Kartikeya Upasani, Xianjun Yang, Suyu Ge, Shaoliang Nie, Yuning Mao, Zhe Liu, Dong Wang
cs.AI
papers.abstract
Da hochwertige Daten zunehmend schwerer zu beschaffen sind, hat sich die datenfreie Selbstevolution als vielversprechendes Paradigma etabliert. Dieser Ansatz ermöglicht es großen Sprachmodellen (LLMs), autonom komplexe Probleme zu generieren und zu lösen, wodurch ihre Fähigkeiten zum logischen Schlussfolgern verbessert werden. Allerdings haben Such-Agenten mit Mehrschritt-Interaktionen in datenfreier Selbstevolution Schwierigkeiten, was auf die begrenzte Fragenvielfalt und den erheblichen Rechenaufwand für mehrstufiges Schlussfolgern und Werkzeugeinsatz zurückzuführen ist. In dieser Arbeit stellen wir Dr. Zero vor, ein Framework, das Such-Agenten eine effektive Selbstevolution ohne jegliche Trainingsdaten ermöglicht. Insbesondere entwerfen wir eine Selbstevolutions-Rückkopplungsschleife, in der ein Vorschlagender (Proposer) diverse Fragen generiert, um einen Löser (Solver) zu trainieren, der aus demselben Basismodell initialisiert wird. Während der Löser sich weiterentwickelt, incentiviert er den Vorschlagenden, zunehmend schwierige, aber lösbare Aufgaben zu produzieren, und etabliert so einen automatisierten Lehrplan zur Verfeinerung beider Agenten. Um die Trainingseffizienz zu steigern, führen wir außerdem eine hop-gruppierte relative Optimierung der Strategie (Hop-grouped Relative Policy Optimization, HRPO) ein. Diese Methode clustert strukturell ähnliche Fragen, um gruppenweite Vergleichsbaselines zu konstruieren, und minimiert so effektiv den Stichprobenaufwand bei der Bewertung der individuellen Schwierigkeit und Lösbarkeit jeder Anfrage. Folglich reduziert HRPO den Rechenbedarf für das Training des Lösers erheblich, ohne Leistung oder Stabilität zu beeinträchtigen. Umfangreiche Experimente zeigen, dass der datenfreie Dr. Zero vollständig überwachte Such-Agenten erreicht oder übertrifft, was beweist, dass komplexe Schlussfolgerungs- und Suchfähigkeiten allein durch Selbstevolution entstehen können.
English
As high-quality data becomes increasingly difficult to obtain, data-free self-evolution has emerged as a promising paradigm. This approach allows large language models (LLMs) to autonomously generate and solve complex problems, thereby improving their reasoning capabilities. However, multi-turn search agents struggle in data-free self-evolution due to the limited question diversity and the substantial compute required for multi-step reasoning and tool using. In this work, we introduce Dr. Zero, a framework enabling search agents to effectively self-evolve without any training data. In particular, we design a self-evolution feedback loop where a proposer generates diverse questions to train a solver initialized from the same base model. As the solver evolves, it incentivizes the proposer to produce increasingly difficult yet solvable tasks, thus establishing an automated curriculum to refine both agents. To enhance training efficiency, we also introduce hop-grouped relative policy optimization (HRPO). This method clusters structurally similar questions to construct group-level baselines, effectively minimizing the sampling overhead in evaluating each query's individual difficulty and solvability. Consequently, HRPO significantly reduces the compute requirements for solver training without compromising performance or stability. Extensive experiment results demonstrate that the data-free Dr. Zero matches or surpasses fully supervised search agents, proving that complex reasoning and search capabilities can emerge solely through self-evolution.