Inferenzzeit-Skalierung von Verifikation: Selbst-evolvierende tiefe Forschungsagenten durch rubrikengesteuerte Verifikation zur Testzeit

papers.abstract

Jüngste Fortschritte bei Deep Research Agents (DRAs) transformieren die automatisierte Wissensentdeckung und Problemlösung. Während sich die Mehrheit der bestehenden Bemühungen auf die Verbesserung der Policy-Fähigkeiten durch Post-Training konzentriert, schlagen wir ein alternatives Paradigma vor: die selbstständige Evolution der Fähigkeiten des Agenten durch iteratives Überprüfen der Outputs des Policy-Modells, geleitet von sorgfältig erstellten Bewertungsrubriken. Dieser Ansatz führt zu einem Inference-Time-Scaling der Verifikation, bei dem sich ein Agent selbst verbessert, indem er seine generierten Antworten bewertet, um iteratives Feedback und Verfeinerungen zu erzeugen. Wir leiten die Rubriken auf Basis einer automatisch konstruierten DRA-Fehler-Taxonomie ab, die Agentenfehler systematisch in fünf Hauptkategorien und dreizehn Unterkategorien einteilt. Wir stellen DeepVerifier vor, einen rubrikbasierten Outcome-Reward-Verifier, der die Asymmetrie der Verifikation nutzt und Vanilla-Agent-as-Judge- sowie LLM-Judge-Baselines im Meta-Evaluation-F1-Score um 12 % bis 48 % übertrifft. Um eine praktische Selbstevolution zu ermöglichen, integriert sich DeepVerifier als Plug-and-Play-Modul während der Test-Time-Inference. Der Verifier erzeugt detailliertes, rubrikbasiertes Feedback, das an den Agenten zurückgespielt wird, um ein iteratives Bootstrapping zur Verfeinerung der Antworten ohne zusätzliches Training zu ermöglichen. Dieses Test-Time-Scaling erzielt Genauigkeitssteigerungen von 8 % bis 11 % auf anspruchsvollen Teilmengen von GAIA und XBench-DeepResearch, wenn es durch leistungsstarke Closed-Source-LLMs angetrieben wird. Schließlich veröffentlichen wir, um die Open-Source-Entwicklung zu unterstützen, DeepVerifier-4K, einen kuratierten Supervised-Fine-Tuning-Datensatz mit 4.646 hochwertigen Agentenschritten, die sich auf die DRA-Verifikation konzentrieren. Diese Beispiele betonen Reflexion und Selbstkritik und ermöglichen es Open-Modellen, robuste Verifikationsfähigkeiten zu entwickeln.

English

Recent advances in Deep Research Agents (DRAs) are transforming automated knowledge discovery and problem-solving. While the majority of existing efforts focus on enhancing policy capabilities via post-training, we propose an alternative paradigm: self-evolving the agent's ability by iteratively verifying the policy model's outputs, guided by meticulously crafted rubrics. This approach gives rise to the inference-time scaling of verification, wherein an agent self-improves by evaluating its generated answers to produce iterative feedback and refinements. We derive the rubrics based on an automatically constructed DRA Failure Taxonomy, which systematically classifies agent failures into five major categories and thirteen sub-categories. We present DeepVerifier, a rubrics-based outcome reward verifier that leverages the asymmetry of verification and outperforms vanilla agent-as-judge and LLM judge baselines by 12%-48% in meta-evaluation F1 score. To enable practical self-evolution, DeepVerifier integrates as a plug-and-play module during test-time inference. The verifier produces detailed rubric-based feedback, which is fed back to the agent for iterative bootstrapping, refining responses without additional training. This test-time scaling delivers 8%-11% accuracy gains on challenging subsets of GAIA and XBench-DeepResearch when powered by capable closed-source LLMs. Finally, to support open-source advancement, we release DeepVerifier-4K, a curated supervised fine-tuning dataset of 4,646 high-quality agent steps focused on DRA verification. These examples emphasize reflection and self-critique, enabling open models to develop robust verification capabilities.

Inferenzzeit-Skalierung von Verifikation: Selbst-evolvierende tiefe Forschungsagenten durch rubrikengesteuerte Verifikation zur Testzeit

Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

papers.abstract

Support