VerifiAgent : un agent de vérification unifié pour le raisonnement des modèles de langage
VerifiAgent: a Unified Verification Agent in Language Model Reasoning
April 1, 2025
Auteurs: Jiuzhou Han, Wray Buntine, Ehsan Shareghi
cs.AI
Résumé
Les grands modèles de langage démontrent des capacités de raisonnement remarquables, mais produisent souvent des réponses peu fiables ou incorrectes. Les méthodes de vérification existantes sont généralement spécifiques à un modèle ou restreintes à un domaine, nécessitant des ressources computationnelles importantes et manquant de scalabilité pour des tâches de raisonnement variées. Pour pallier ces limitations, nous proposons VerifiAgent, un agent de vérification unifié qui intègre deux niveaux de vérification : la méta-vérification, qui évalue l'exhaustivité et la cohérence des réponses du modèle, et la vérification adaptative basée sur des outils, où VerifiAgent sélectionne de manière autonome les outils de vérification appropriés en fonction du type de raisonnement, qu'il soit mathématique, logique ou de bon sens. Cette approche adaptative garantit à la fois efficacité et robustesse dans différents scénarios de vérification. Les résultats expérimentaux montrent que VerifiAgent surpasse les méthodes de vérification de référence (par exemple, le vérificateur déductif, le vérificateur rétrograde) dans toutes les tâches de raisonnement. De plus, il peut encore améliorer la précision du raisonnement en exploitant les retours des résultats de vérification. VerifiAgent peut également être appliqué efficacement à la mise à l'échelle de l'inférence, obtenant de meilleurs résultats avec moins d'échantillons générés et à moindre coût par rapport aux modèles de récompense de processus existants dans le domaine du raisonnement mathématique. Le code est disponible à l'adresse suivante : https://github.com/Jiuzhouh/VerifiAgent
English
Large language models demonstrate remarkable reasoning capabilities but often
produce unreliable or incorrect responses. Existing verification methods are
typically model-specific or domain-restricted, requiring significant
computational resources and lacking scalability across diverse reasoning tasks.
To address these limitations, we propose VerifiAgent, a unified verification
agent that integrates two levels of verification: meta-verification, which
assesses completeness and consistency in model responses, and tool-based
adaptive verification, where VerifiAgent autonomously selects appropriate
verification tools based on the reasoning type, including mathematical,
logical, or commonsense reasoning. This adaptive approach ensures both
efficiency and robustness across different verification scenarios. Experimental
results show that VerifiAgent outperforms baseline verification methods (e.g.,
deductive verifier, backward verifier) among all reasoning tasks. Additionally,
it can further enhance reasoning accuracy by leveraging feedback from
verification results. VerifiAgent can also be effectively applied to inference
scaling, achieving better results with fewer generated samples and costs
compared to existing process reward models in the mathematical reasoning
domain. Code is available at https://github.com/Jiuzhouh/VerifiAgentSummary
AI-Generated Summary