추론 시간 검증 확장: 시험 시간 루브릭 기반 검증을 통한 자기 진화 딥 리서치 에이전트
Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification
January 22, 2026
저자: Yuxuan Wan, Tianqing Fang, Zaitang Li, Yintong Huo, Wenxuan Wang, Haitao Mi, Dong Yu, Michael R. Lyu
cs.AI
초록
최근 딥 리서치 에이전트(DRA) 분야의 발전은 자동화된 지식 발견과 문제 해결을 혁신하고 있습니다. 기존 연구 대부분이 사후 훈련을 통해 정책 역량을 강화하는 데 집중하는 가운데, 우리는 대안적 패러다임을 제안합니다: 정밀하게 설계된 루브릭에 따라 정책 모델의 출력을 반복적으로 검증함으로써 에이전트의 능력을 자가 진화시키는 것입니다. 이 접근법은 검증의 추론 시간 스케일링을 가능하게 하는데, 여기서 에이전트는 생성한 답변을 평가하여 반복적 피드백과 개선점을 도출함으로써 자기 개선을 수행합니다. 우리는 에이전트 실패를 5가지 주요 범주와 13개 하위 범주로 체계적으로 분류하는 자동 구축 DRA 실패 분류체계를 기반으로 루브릭을 도출했습니다. 우리는 루브릭 기반 결과 보상 검증기인 DeepVerifier를 제시하며, 이는 검증의 비대칭성을 활용하여 기본 에이전트-as-판단자 및 LLM 판단자 기준선을 메타 평가 F1 점수에서 12%~48% 능가합니다. 실용적인 자가 진화를 가능하게 하기 위해 DeepVerifier는 테스트 시간 추론 중 플러그 앤 플레이 모듈로 통합됩니다. 검증기는 상세한 루브릭 기반 피드백을 생성하며, 이는 추가 훈련 없이 응답을 개선하기 위해 반복적 부트스트래핑을 위해 에이전트로 다시 피드백됩니다. 이 테스트 시간 스케일링은 강력한 클로즈드 소스 LLM으로 구동될 때 GAIA와 XBench-DeepResearch의 도전적인 하위 집합에서 8%~11%의 정확도 향상을 제공합니다. 마지막으로 오픈소스 발전을 지원하기 위해 우리는 DRA 검증에 중점을 둔 4,646개의 고품질 에이전트 단계로 구성된 정제된 지도 미세 조정 데이터셋인 DeepVerifier-4K를 공개합니다. 이러한 예시들은 성찰과 자기 비판을 강조하여 오픈 모델이 강력한 검증 능력을 개발할 수 있도록 합니다.
English
Recent advances in Deep Research Agents (DRAs) are transforming automated knowledge discovery and problem-solving. While the majority of existing efforts focus on enhancing policy capabilities via post-training, we propose an alternative paradigm: self-evolving the agent's ability by iteratively verifying the policy model's outputs, guided by meticulously crafted rubrics. This approach gives rise to the inference-time scaling of verification, wherein an agent self-improves by evaluating its generated answers to produce iterative feedback and refinements. We derive the rubrics based on an automatically constructed DRA Failure Taxonomy, which systematically classifies agent failures into five major categories and thirteen sub-categories. We present DeepVerifier, a rubrics-based outcome reward verifier that leverages the asymmetry of verification and outperforms vanilla agent-as-judge and LLM judge baselines by 12%-48% in meta-evaluation F1 score. To enable practical self-evolution, DeepVerifier integrates as a plug-and-play module during test-time inference. The verifier produces detailed rubric-based feedback, which is fed back to the agent for iterative bootstrapping, refining responses without additional training. This test-time scaling delivers 8%-11% accuracy gains on challenging subsets of GAIA and XBench-DeepResearch when powered by capable closed-source LLMs. Finally, to support open-source advancement, we release DeepVerifier-4K, a curated supervised fine-tuning dataset of 4,646 high-quality agent steps focused on DRA verification. These examples emphasize reflection and self-critique, enabling open models to develop robust verification capabilities.