ChatPaper.aiChatPaper

Inferentie-schaalvergroting van verificatie: Zelf-evoluerende diepe onderzoeksagenten via rubric-geleide verificatie tijdens de testfase

Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

January 22, 2026
Auteurs: Yuxuan Wan, Tianqing Fang, Zaitang Li, Yintong Huo, Wenxuan Wang, Haitao Mi, Dong Yu, Michael R. Lyu
cs.AI

Samenvatting

Recente ontwikkelingen in Deep Research Agents (DRA's) transformeren geautomatiseerde kennisontdekking en probleemoplossing. Hoewel de meeste bestaande inspanningen zich richten op het verbeteren van beleidsmogelijkheden via post-training, stellen wij een alternatief paradigma voor: het zelf laten evolueren van het vermogen van de agent door de uitvoer van het beleidsmodel iteratief te verifiëren, geleid door zorgvuldig opgestelde rubrics. Deze aanpak leidt tot de inferentie-tijd schaalvergroting van verificatie, waarbij een agent zichzelf verbetert door zijn gegenereerde antwoorden te evalueren om iteratieve feedback en verfijningen te produceren. Wij leiden de rubrics af op basis van een automatisch geconstrueerde DRA Foutentaxonomie, die agentfouten systematisch classificeert in vijf hoofdcategorieën en dertien subcategorieën. Wij presenteren DeepVerifier, een op rubrics gebaseerde uitkomstbeloningsverificateur die de asymmetrie van verificatie benut en de baseline-methoden van gewone agent-as-judge en LLM-judge met 12%-48% overtreft in F1-score voor meta-evaluatie. Om praktische zelfevolutie mogelijk te maken, integreert DeepVerifier als een plug-and-play module tijdens inferentie op testtijd. De verificateur produceert gedetailleerde, op rubrics gebaseerde feedback, die wordt teruggevoerd naar de agent voor iteratieve bootstrapping, waarbij antwoorden worden verfijnd zonder aanvullende training. Deze schaalvergroting op testtijd levert 8%-11% nauwkeurigheidswinst op op uitdagende subsets van GAIA en XBench-DeepResearch wanneer wordt aangedreven door capabele closed-source LLM's. Ten slotte, ter ondersteuning van de vooruitgang van open source, publiceren wij DeepVerifier-4K, een gecureerde supervised fine-tuning dataset van 4.646 hoogwaardige agentstappen gericht op DRA-verificatie. Deze voorbeelden benadrukken reflectie en zelfkritiek, waardoor open modellen robuuste verificatiemogelijkheden kunnen ontwikkelen.
English
Recent advances in Deep Research Agents (DRAs) are transforming automated knowledge discovery and problem-solving. While the majority of existing efforts focus on enhancing policy capabilities via post-training, we propose an alternative paradigm: self-evolving the agent's ability by iteratively verifying the policy model's outputs, guided by meticulously crafted rubrics. This approach gives rise to the inference-time scaling of verification, wherein an agent self-improves by evaluating its generated answers to produce iterative feedback and refinements. We derive the rubrics based on an automatically constructed DRA Failure Taxonomy, which systematically classifies agent failures into five major categories and thirteen sub-categories. We present DeepVerifier, a rubrics-based outcome reward verifier that leverages the asymmetry of verification and outperforms vanilla agent-as-judge and LLM judge baselines by 12%-48% in meta-evaluation F1 score. To enable practical self-evolution, DeepVerifier integrates as a plug-and-play module during test-time inference. The verifier produces detailed rubric-based feedback, which is fed back to the agent for iterative bootstrapping, refining responses without additional training. This test-time scaling delivers 8%-11% accuracy gains on challenging subsets of GAIA and XBench-DeepResearch when powered by capable closed-source LLMs. Finally, to support open-source advancement, we release DeepVerifier-4K, a curated supervised fine-tuning dataset of 4,646 high-quality agent steps focused on DRA verification. These examples emphasize reflection and self-critique, enabling open models to develop robust verification capabilities.
PDF203February 7, 2026