VerifiAgent: een Geïntegreerd Verificatie-Agent in Taalmodelredenering
VerifiAgent: a Unified Verification Agent in Language Model Reasoning
April 1, 2025
Auteurs: Jiuzhou Han, Wray Buntine, Ehsan Shareghi
cs.AI
Samenvatting
Grote taalmodellen tonen opmerkelijke redeneervaardigheden, maar produceren vaak onbetrouwbare of incorrecte antwoorden. Bestaande verificatiemethoden zijn doorgaans modelspecifiek of domeinbeperkt, vereisen aanzienlijke rekenkracht en schieten tekort in schaalbaarheid over diverse redeneertaken. Om deze beperkingen aan te pakken, stellen we VerifiAgent voor, een geïntegreerde verificatieagent die twee niveaus van verificatie combineert: meta-verificatie, die de volledigheid en consistentie van modelantwoorden beoordeelt, en toolgebaseerde adaptieve verificatie, waarbij VerifiAgent autonoom geschikte verificatietools selecteert op basis van het type redenering, zoals wiskundige, logische of alledaagse redenering. Deze adaptieve aanpak zorgt voor zowel efficiëntie als robuustheid in verschillende verificatiescenario's. Experimentele resultaten tonen aan dat VerifiAgent baseline-verificatiemethoden (bijv. deductieve verifier, backward verifier) overtreft in alle redeneertaken. Daarnaast kan het de nauwkeurigheid van redeneringen verder verbeteren door feedback van verificatieresultaten te benutten. VerifiAgent kan ook effectief worden toegepast op schaalvergroting van inferentie, waarbij het betere resultaten behaalt met minder gegenereerde samples en kosten in vergelijking met bestaande procesbeloningsmodellen in het domein van wiskundig redeneren. Code is beschikbaar op https://github.com/Jiuzhouh/VerifiAgent.
English
Large language models demonstrate remarkable reasoning capabilities but often
produce unreliable or incorrect responses. Existing verification methods are
typically model-specific or domain-restricted, requiring significant
computational resources and lacking scalability across diverse reasoning tasks.
To address these limitations, we propose VerifiAgent, a unified verification
agent that integrates two levels of verification: meta-verification, which
assesses completeness and consistency in model responses, and tool-based
adaptive verification, where VerifiAgent autonomously selects appropriate
verification tools based on the reasoning type, including mathematical,
logical, or commonsense reasoning. This adaptive approach ensures both
efficiency and robustness across different verification scenarios. Experimental
results show that VerifiAgent outperforms baseline verification methods (e.g.,
deductive verifier, backward verifier) among all reasoning tasks. Additionally,
it can further enhance reasoning accuracy by leveraging feedback from
verification results. VerifiAgent can also be effectively applied to inference
scaling, achieving better results with fewer generated samples and costs
compared to existing process reward models in the mathematical reasoning
domain. Code is available at https://github.com/Jiuzhouh/VerifiAgentSummary
AI-Generated Summary