ChatPaper.aiChatPaper

VerifiAgent: унифицированный агент верификации в рассуждениях языковых моделей

VerifiAgent: a Unified Verification Agent in Language Model Reasoning

April 1, 2025
Авторы: Jiuzhou Han, Wray Buntine, Ehsan Shareghi
cs.AI

Аннотация

Крупные языковые модели демонстрируют впечатляющие способности к рассуждению, но часто выдают ненадежные или ошибочные ответы. Существующие методы проверки, как правило, специфичны для конкретных моделей или ограничены определенными областями, требуют значительных вычислительных ресурсов и не обладают масштабируемостью для разнообразных задач рассуждения. Чтобы устранить эти ограничения, мы предлагаем VerifiAgent — унифицированного агента проверки, который интегрирует два уровня верификации: мета-верификацию, которая оценивает полноту и согласованность ответов модели, и инструментальную адаптивную проверку, где VerifiAgent автономно выбирает подходящие инструменты проверки в зависимости от типа рассуждения, включая математические, логические или рассуждения на основе здравого смысла. Такой адаптивный подход обеспечивает как эффективность, так и надежность в различных сценариях проверки. Экспериментальные результаты показывают, что VerifiAgent превосходит базовые методы проверки (например, дедуктивный верификатор, обратный верификатор) во всех задачах рассуждения. Кроме того, он может дополнительно повышать точность рассуждений, используя обратную связь от результатов проверки. VerifiAgent также эффективно применяется для масштабирования вывода, достигая лучших результатов с меньшим количеством сгенерированных образцов и затрат по сравнению с существующими моделями вознаграждения за процесс в области математических рассуждений. Код доступен по адресу: https://github.com/Jiuzhouh/VerifiAgent.
English
Large language models demonstrate remarkable reasoning capabilities but often produce unreliable or incorrect responses. Existing verification methods are typically model-specific or domain-restricted, requiring significant computational resources and lacking scalability across diverse reasoning tasks. To address these limitations, we propose VerifiAgent, a unified verification agent that integrates two levels of verification: meta-verification, which assesses completeness and consistency in model responses, and tool-based adaptive verification, where VerifiAgent autonomously selects appropriate verification tools based on the reasoning type, including mathematical, logical, or commonsense reasoning. This adaptive approach ensures both efficiency and robustness across different verification scenarios. Experimental results show that VerifiAgent outperforms baseline verification methods (e.g., deductive verifier, backward verifier) among all reasoning tasks. Additionally, it can further enhance reasoning accuracy by leveraging feedback from verification results. VerifiAgent can also be effectively applied to inference scaling, achieving better results with fewer generated samples and costs compared to existing process reward models in the mathematical reasoning domain. Code is available at https://github.com/Jiuzhouh/VerifiAgent

Summary

AI-Generated Summary

PDF62April 3, 2025