Escalado de Verificación en Tiempo de Inferencia: Agentes de Investigación Profunda Auto-Evolutivos mediante Verificación Guiada por Rúbrica en Tiempo de Prueba

Resumen

Los recientes avances en Agentes de Investigación Profunda (DRAs) están transformando el descubrimiento automatizado de conocimiento y la resolución de problemas. Si bien la mayoría de los esfuerzos existentes se centran en mejorar las capacidades de la política mediante el post-entrenamiento, proponemos un paradigma alternativo: la auto-evolución de la capacidad del agente mediante la verificación iterativa de las salidas del modelo de política, guiada por rúbricas meticulosamente elaboradas. Este enfoque da lugar al escalado en tiempo de inferencia de la verificación, mediante el cual un agente se auto-mejora evaluando sus respuestas generadas para producir retroalimentación y refinamientos iterativos. Derivamos las rúbricas basándonos en una Taxonomía de Fallos de DRA construida automáticamente, que clasifica sistemáticamente los fallos de los agentes en cinco categorías principales y trece subcategorías. Presentamos DeepVerifier, un verificador de recompensa por resultados basado en rúbricas que aprovecha la asimetría de la verificación y supera a los baselines de agente-como-juez básico y juez LLM en un 12%-48% en la puntuación F1 de meta-evaluación. Para permitir una auto-evolución práctica, DeepVerifier se integra como un módulo plug-and-play durante la inferencia en tiempo de prueba. El verificador genera una retroalimentación detallada basada en rúbricas, que se retroalimenta al agente para un bootstrapping iterativo, refinando las respuestas sin entrenamiento adicional. Este escalado en tiempo de prueba proporciona ganancias de precisión del 8% al 11% en subconjuntos desafiantes de GAIA y XBench-DeepResearch cuando se impulsa con LLMs cerrados capaces. Finalmente, para apoyar el avance del código abierto, publicamos DeepVerifier-4K, un conjunto de datos curado de ajuste fino supervisado de 4,646 pasos de agente de alta calidad centrados en la verificación de DRA. Estos ejemplos enfatizan la reflexión y la autocrítica, permitiendo que los modelos abiertos desarrollen capacidades de verificación robustas.

English

Recent advances in Deep Research Agents (DRAs) are transforming automated knowledge discovery and problem-solving. While the majority of existing efforts focus on enhancing policy capabilities via post-training, we propose an alternative paradigm: self-evolving the agent's ability by iteratively verifying the policy model's outputs, guided by meticulously crafted rubrics. This approach gives rise to the inference-time scaling of verification, wherein an agent self-improves by evaluating its generated answers to produce iterative feedback and refinements. We derive the rubrics based on an automatically constructed DRA Failure Taxonomy, which systematically classifies agent failures into five major categories and thirteen sub-categories. We present DeepVerifier, a rubrics-based outcome reward verifier that leverages the asymmetry of verification and outperforms vanilla agent-as-judge and LLM judge baselines by 12%-48% in meta-evaluation F1 score. To enable practical self-evolution, DeepVerifier integrates as a plug-and-play module during test-time inference. The verifier produces detailed rubric-based feedback, which is fed back to the agent for iterative bootstrapping, refining responses without additional training. This test-time scaling delivers 8%-11% accuracy gains on challenging subsets of GAIA and XBench-DeepResearch when powered by capable closed-source LLMs. Finally, to support open-source advancement, we release DeepVerifier-4K, a curated supervised fine-tuning dataset of 4,646 high-quality agent steps focused on DRA verification. These examples emphasize reflection and self-critique, enabling open models to develop robust verification capabilities.

Escalado de Verificación en Tiempo de Inferencia: Agentes de Investigación Profunda Auto-Evolutivos mediante Verificación Guiada por Rúbrica en Tiempo de Prueba

Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

Resumen

Support