ChatPaper.aiChatPaper

VerifiAgent: 언어 모델 추론을 위한 통합 검증 에이전트

VerifiAgent: a Unified Verification Agent in Language Model Reasoning

April 1, 2025
저자: Jiuzhou Han, Wray Buntine, Ehsan Shareghi
cs.AI

초록

대규모 언어 모델은 놀라운 추론 능력을 보여주지만 종종 신뢰할 수 없거나 잘못된 응답을 생성합니다. 기존의 검증 방법들은 일반적으로 모델에 특화되어 있거나 도메인에 제한적이며, 상당한 계산 자원을 요구하고 다양한 추론 작업에 걸쳐 확장성이 부족합니다. 이러한 한계를 해결하기 위해, 우리는 두 가지 수준의 검증을 통합한 통합 검증 에이전트인 VerifiAgent를 제안합니다: 메타 검증은 모델 응답의 완전성과 일관성을 평가하고, 도구 기반 적응형 검증은 VerifiAgent가 수학적, 논리적 또는 상식적 추론과 같은 추론 유형에 따라 적절한 검증 도구를 자율적으로 선택합니다. 이 적응형 접근 방식은 다양한 검증 시나리오에서 효율성과 견고성을 모두 보장합니다. 실험 결과는 VerifiAgent가 모든 추론 작업에서 기준 검증 방법들(예: 연역적 검증기, 역방향 검증기)을 능가함을 보여줍니다. 또한, 검증 결과로부터 피드백을 활용하여 추론 정확도를 더욱 향상시킬 수 있습니다. VerifiAgent는 수학적 추론 도메인에서 기존의 프로세스 보상 모델보다 더 적은 생성 샘플과 비용으로 더 나은 결과를 달성하며, 추론 확장에도 효과적으로 적용될 수 있습니다. 코드는 https://github.com/Jiuzhouh/VerifiAgent에서 확인할 수 있습니다.
English
Large language models demonstrate remarkable reasoning capabilities but often produce unreliable or incorrect responses. Existing verification methods are typically model-specific or domain-restricted, requiring significant computational resources and lacking scalability across diverse reasoning tasks. To address these limitations, we propose VerifiAgent, a unified verification agent that integrates two levels of verification: meta-verification, which assesses completeness and consistency in model responses, and tool-based adaptive verification, where VerifiAgent autonomously selects appropriate verification tools based on the reasoning type, including mathematical, logical, or commonsense reasoning. This adaptive approach ensures both efficiency and robustness across different verification scenarios. Experimental results show that VerifiAgent outperforms baseline verification methods (e.g., deductive verifier, backward verifier) among all reasoning tasks. Additionally, it can further enhance reasoning accuracy by leveraging feedback from verification results. VerifiAgent can also be effectively applied to inference scaling, achieving better results with fewer generated samples and costs compared to existing process reward models in the mathematical reasoning domain. Code is available at https://github.com/Jiuzhouh/VerifiAgent
PDF82April 3, 2025