VerifiAgent: un Agente de Verificación Unificado en el Razonamiento de Modelos de Lenguaje
VerifiAgent: a Unified Verification Agent in Language Model Reasoning
April 1, 2025
Autores: Jiuzhou Han, Wray Buntine, Ehsan Shareghi
cs.AI
Resumen
Los grandes modelos de lenguaje demuestran capacidades de razonamiento notables, pero a menudo producen respuestas poco confiables o incorrectas. Los métodos de verificación existentes suelen ser específicos para cada modelo o están restringidos a dominios particulares, requieren recursos computacionales significativos y carecen de escalabilidad en diversas tareas de razonamiento. Para abordar estas limitaciones, proponemos VerifiAgent, un agente de verificación unificado que integra dos niveles de verificación: meta-verificación, que evalúa la completitud y consistencia en las respuestas del modelo, y verificación adaptativa basada en herramientas, donde VerifiAgent selecciona autónomamente las herramientas de verificación apropiadas según el tipo de razonamiento, incluyendo razonamiento matemático, lógico o de sentido común. Este enfoque adaptativo garantiza tanto eficiencia como robustez en diferentes escenarios de verificación. Los resultados experimentales muestran que VerifiAgent supera a los métodos de verificación de referencia (por ejemplo, verificador deductivo, verificador hacia atrás) en todas las tareas de razonamiento. Además, puede mejorar aún más la precisión del razonamiento al aprovechar la retroalimentación de los resultados de verificación. VerifiAgent también puede aplicarse eficazmente a la escalabilidad de inferencia, logrando mejores resultados con menos muestras generadas y costos reducidos en comparación con los modelos de recompensa de proceso existentes en el dominio del razonamiento matemático. El código está disponible en https://github.com/Jiuzhouh/VerifiAgent.
English
Large language models demonstrate remarkable reasoning capabilities but often
produce unreliable or incorrect responses. Existing verification methods are
typically model-specific or domain-restricted, requiring significant
computational resources and lacking scalability across diverse reasoning tasks.
To address these limitations, we propose VerifiAgent, a unified verification
agent that integrates two levels of verification: meta-verification, which
assesses completeness and consistency in model responses, and tool-based
adaptive verification, where VerifiAgent autonomously selects appropriate
verification tools based on the reasoning type, including mathematical,
logical, or commonsense reasoning. This adaptive approach ensures both
efficiency and robustness across different verification scenarios. Experimental
results show that VerifiAgent outperforms baseline verification methods (e.g.,
deductive verifier, backward verifier) among all reasoning tasks. Additionally,
it can further enhance reasoning accuracy by leveraging feedback from
verification results. VerifiAgent can also be effectively applied to inference
scaling, achieving better results with fewer generated samples and costs
compared to existing process reward models in the mathematical reasoning
domain. Code is available at https://github.com/Jiuzhouh/VerifiAgentSummary
AI-Generated Summary