ChatPaper.aiChatPaper

VerifiAgent: Ein einheitlicher Verifikationsagent für das Reasoning von Sprachmodellen

VerifiAgent: a Unified Verification Agent in Language Model Reasoning

April 1, 2025
Autoren: Jiuzhou Han, Wray Buntine, Ehsan Shareghi
cs.AI

Zusammenfassung

Große Sprachmodelle zeigen bemerkenswerte Fähigkeiten im logischen Denken, liefern jedoch oft unzuverlässige oder falsche Antworten. Bestehende Verifizierungsmethoden sind in der Regel modellspezifisch oder auf bestimmte Domänen beschränkt, erfordern erhebliche Rechenressourcen und mangelt es an Skalierbarkeit über verschiedene Denkaufgaben hinweg. Um diese Einschränkungen zu überwinden, schlagen wir VerifiAgent vor, einen einheitlichen Verifizierungsagenten, der zwei Ebenen der Verifizierung integriert: Meta-Verifizierung, die Vollständigkeit und Konsistenz der Modellantworten bewertet, und werkzeugbasierte adaptive Verifizierung, bei der VerifiAgent autonom geeignete Verifizierungswerkzeuge basierend auf der Art des Denkens auswählt, einschließlich mathematischem, logischem oder gesundem Menschenverstand. Dieser adaptive Ansatz gewährleistet sowohl Effizienz als auch Robustheit in verschiedenen Verifizierungsszenarien. Experimentelle Ergebnisse zeigen, dass VerifiAgent alle Baseline-Verifizierungsmethoden (z. B. deduktiver Verifizierer, Rückwärtsverifizierer) bei allen Denkaufgaben übertrifft. Darüber hinaus kann es die Genauigkeit des Denkens weiter verbessern, indem es Feedback aus den Verifizierungsergebnissen nutzt. VerifiAgent kann auch effektiv auf die Skalierung von Inferenzen angewendet werden und erzielt im Vergleich zu bestehenden Prozessbelohnungsmodellen im Bereich des mathematischen Denkens bessere Ergebnisse mit weniger generierten Stichproben und geringeren Kosten. Der Code ist verfügbar unter https://github.com/Jiuzhouh/VerifiAgent.
English
Large language models demonstrate remarkable reasoning capabilities but often produce unreliable or incorrect responses. Existing verification methods are typically model-specific or domain-restricted, requiring significant computational resources and lacking scalability across diverse reasoning tasks. To address these limitations, we propose VerifiAgent, a unified verification agent that integrates two levels of verification: meta-verification, which assesses completeness and consistency in model responses, and tool-based adaptive verification, where VerifiAgent autonomously selects appropriate verification tools based on the reasoning type, including mathematical, logical, or commonsense reasoning. This adaptive approach ensures both efficiency and robustness across different verification scenarios. Experimental results show that VerifiAgent outperforms baseline verification methods (e.g., deductive verifier, backward verifier) among all reasoning tasks. Additionally, it can further enhance reasoning accuracy by leveraging feedback from verification results. VerifiAgent can also be effectively applied to inference scaling, achieving better results with fewer generated samples and costs compared to existing process reward models in the mathematical reasoning domain. Code is available at https://github.com/Jiuzhouh/VerifiAgent

Summary

AI-Generated Summary

PDF62April 3, 2025