推論時検証のスケーリング:テスト時ルーブリック誘導検証による自己進化型深層研究エージェント
Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification
January 22, 2026
著者: Yuxuan Wan, Tianqing Fang, Zaitang Li, Yintong Huo, Wenxuan Wang, Haitao Mi, Dong Yu, Michael R. Lyu
cs.AI
要旨
深層研究エージェント(DRA)の最近の進展は、自動化された知識発見と問題解決を変革しつつある。既存研究の大半はポストトレーニングによる方策能力の向上に焦点を当てているが、我々は代替パラダイムを提案する:厳密に設計された評価基準に基づいて方策モデルの出力を反復検証することで、エージェントの能力を自己進化させる手法である。このアプローチは「検証の推論時スケーリング」を実現し、エージェントが自身の生成した回答を評価して反復的フィードバックと改良を産出することで自己改善する。評価基準は自動構築された「DRA失敗分類学」に基づいて導出され、エージェントの失敗を5大カテゴリ・13サブカテゴリに体系的に分類する。我々はDeepVerifierを提案する。これは評価基準に基づく成果報酬検証器であり、検証の非対称性を活用することで、素朴なエージェント自身による評価やLLM評価ベースラインをメタ評価F1スコアで12%-48%上回る。実用的な自己進化を可能にするため、DeepVerifierはテスト時推論においてプラグアンドプレイモジュールとして統合される。検証器は詳細な評価基準に基づくフィードバックを生成し、これをエージェントに返して反復的ブートストラップを実施し、追加トレーニングなしで回答を洗練する。このテスト時スケーリングは、高性能なクローズドソースLLMを活用した場合、GAIAとXBench-DeepResearchの難易度高いサブセットで8%-11%の精度向上をもたらす。最後に、オープンソースの発展を支援するため、DRA検証に特化した4,646の高品質なエージェントステップから成る教師ありファインチューニングデータセットDeepVerifier-4Kを公開する。これらの事例は反省と自己批判に重点を置き、オープンモデルが堅牢な検証能力を開発することを可能にする。
English
Recent advances in Deep Research Agents (DRAs) are transforming automated knowledge discovery and problem-solving. While the majority of existing efforts focus on enhancing policy capabilities via post-training, we propose an alternative paradigm: self-evolving the agent's ability by iteratively verifying the policy model's outputs, guided by meticulously crafted rubrics. This approach gives rise to the inference-time scaling of verification, wherein an agent self-improves by evaluating its generated answers to produce iterative feedback and refinements. We derive the rubrics based on an automatically constructed DRA Failure Taxonomy, which systematically classifies agent failures into five major categories and thirteen sub-categories. We present DeepVerifier, a rubrics-based outcome reward verifier that leverages the asymmetry of verification and outperforms vanilla agent-as-judge and LLM judge baselines by 12%-48% in meta-evaluation F1 score. To enable practical self-evolution, DeepVerifier integrates as a plug-and-play module during test-time inference. The verifier produces detailed rubric-based feedback, which is fed back to the agent for iterative bootstrapping, refining responses without additional training. This test-time scaling delivers 8%-11% accuracy gains on challenging subsets of GAIA and XBench-DeepResearch when powered by capable closed-source LLMs. Finally, to support open-source advancement, we release DeepVerifier-4K, a curated supervised fine-tuning dataset of 4,646 high-quality agent steps focused on DRA verification. These examples emphasize reflection and self-critique, enabling open models to develop robust verification capabilities.