ChatPaper.aiChatPaper

Scalabilità Temporale della Verifica nell'Inferenza: Agenti di Ricerca Profonda Auto-Evolventi tramite Verifica Guidata da Rubrica in Fase di Test

Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

January 22, 2026
Autori: Yuxuan Wan, Tianqing Fang, Zaitang Li, Yintong Huo, Wenxuan Wang, Haitao Mi, Dong Yu, Michael R. Lyu
cs.AI

Abstract

I recenti progressi negli Agenti di Ricerca Profonda (DRA) stanno trasformando la scoperta automatizzata della conoscenza e la risoluzione dei problemi. Sebbene la maggior parte degli sforzi esistenti si concentri sul potenziamento delle capacità decisionali (*policy*) tramite post-addestramento, noi proponiamo un paradigma alternativo: l'auto-evoluzione delle capacità dell'agente attraverso la verifica iterativa degli output del modello decisionale, guidata da rubriche meticolosamente elaborate. Questo approccio dà origine al *scaling* al tempo di inferenza della verifica, in cui un agente si auto-migliora valutando le risposte generate per produrre feedback e perfezionamenti iterativi. </think>Deriviamo le rubriche basandoci su una Tassonomia degli Errori dei DRA costruita automaticamente, che classifica sistematicamente i fallimenti degli agenti in cinque categorie principali e tredici sottocategorie. </think>Presentiamo DeepVerifier, un verificatore di ricompensa basato su outcome e rubriche che sfrutta l'asimmetria della verifica e supera i baseline di giudizio con agente standard (*vanilla agent-as-judge*) e giudizio LLM del 12%-48% nel punteggio F1 di meta-valutazione. </think>Per abilitare un'auto-evoluzione pratica, DeepVerifier si integra come modulo *plug-and-play* durante l'inferenza al tempo di test. Il verificatore produce un feedback dettagliato basato sulle rubriche, che viene reimmesso nell'agente per un *bootstrapping* iterativo, affinando le risposte senza addestramento aggiuntivo. Questo *scaling* al tempo di test fornisce guadagni di accuratezza dall'8% all'11% su sottoinsiemi complessi di GAIA e XBench-DeepResearch quando alimentato da LLM proprietari capaci. </think>Infine, per supportare l'avanzamento dell'open-source, rilasciamo DeepVerifier-4K, un dataset curato di *fine-tuning* supervisionato di 4.646 step di agente di alta qualità focalizzati sulla verifica dei DRA. Questi esempi enfatizzano la riflessione e l'auto-critica, consentendo ai modelli open di sviluppare solide capacità di verifica.
English
Recent advances in Deep Research Agents (DRAs) are transforming automated knowledge discovery and problem-solving. While the majority of existing efforts focus on enhancing policy capabilities via post-training, we propose an alternative paradigm: self-evolving the agent's ability by iteratively verifying the policy model's outputs, guided by meticulously crafted rubrics. This approach gives rise to the inference-time scaling of verification, wherein an agent self-improves by evaluating its generated answers to produce iterative feedback and refinements. We derive the rubrics based on an automatically constructed DRA Failure Taxonomy, which systematically classifies agent failures into five major categories and thirteen sub-categories. We present DeepVerifier, a rubrics-based outcome reward verifier that leverages the asymmetry of verification and outperforms vanilla agent-as-judge and LLM judge baselines by 12%-48% in meta-evaluation F1 score. To enable practical self-evolution, DeepVerifier integrates as a plug-and-play module during test-time inference. The verifier produces detailed rubric-based feedback, which is fed back to the agent for iterative bootstrapping, refining responses without additional training. This test-time scaling delivers 8%-11% accuracy gains on challenging subsets of GAIA and XBench-DeepResearch when powered by capable closed-source LLMs. Finally, to support open-source advancement, we release DeepVerifier-4K, a curated supervised fine-tuning dataset of 4,646 high-quality agent steps focused on DRA verification. These examples emphasize reflection and self-critique, enabling open models to develop robust verification capabilities.
PDF203February 7, 2026