ChatPaper.aiChatPaper

VerifiAgent: um Agente de Verificação Unificado no Raciocínio de Modelos de Linguagem

VerifiAgent: a Unified Verification Agent in Language Model Reasoning

April 1, 2025
Autores: Jiuzhou Han, Wray Buntine, Ehsan Shareghi
cs.AI

Resumo

Modelos de linguagem de grande escala demonstram capacidades de raciocínio notáveis, mas frequentemente produzem respostas não confiáveis ou incorretas. Os métodos de verificação existentes são tipicamente específicos para cada modelo ou restritos a domínios, exigindo recursos computacionais significativos e carecendo de escalabilidade em diversas tarefas de raciocínio. Para abordar essas limitações, propomos o VerifiAgent, um agente de verificação unificado que integra dois níveis de verificação: meta-verificação, que avalia a completude e consistência nas respostas do modelo, e verificação adaptativa baseada em ferramentas, onde o VerifiAgent seleciona autonomamente as ferramentas de verificação apropriadas com base no tipo de raciocínio, incluindo raciocínio matemático, lógico ou de senso comum. Essa abordagem adaptativa garante eficiência e robustez em diferentes cenários de verificação. Resultados experimentais mostram que o VerifiAgent supera métodos de verificação de linha de base (por exemplo, verificador dedutivo, verificador reverso) em todas as tarefas de raciocínio. Além disso, ele pode aprimorar ainda mais a precisão do raciocínio ao aproveitar o feedback dos resultados da verificação. O VerifiAgent também pode ser aplicado efetivamente ao escalonamento de inferência, alcançando melhores resultados com menos amostras geradas e custos reduzidos em comparação com os modelos de recompensa de processo existentes no domínio do raciocínio matemático. O código está disponível em https://github.com/Jiuzhouh/VerifiAgent.
English
Large language models demonstrate remarkable reasoning capabilities but often produce unreliable or incorrect responses. Existing verification methods are typically model-specific or domain-restricted, requiring significant computational resources and lacking scalability across diverse reasoning tasks. To address these limitations, we propose VerifiAgent, a unified verification agent that integrates two levels of verification: meta-verification, which assesses completeness and consistency in model responses, and tool-based adaptive verification, where VerifiAgent autonomously selects appropriate verification tools based on the reasoning type, including mathematical, logical, or commonsense reasoning. This adaptive approach ensures both efficiency and robustness across different verification scenarios. Experimental results show that VerifiAgent outperforms baseline verification methods (e.g., deductive verifier, backward verifier) among all reasoning tasks. Additionally, it can further enhance reasoning accuracy by leveraging feedback from verification results. VerifiAgent can also be effectively applied to inference scaling, achieving better results with fewer generated samples and costs compared to existing process reward models in the mathematical reasoning domain. Code is available at https://github.com/Jiuzhouh/VerifiAgent

Summary

AI-Generated Summary

PDF62April 3, 2025