CompassVerifier: Een Uniforme en Robuuste Verifier voor Evaluatie en Beloning van Resultaten bij LLM's
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward
August 5, 2025
Auteurs: Shudong Liu, Hongwei Liu, Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen
cs.AI
Samenvatting
Antwoordverificatie is cruciaal, niet alleen voor het evalueren van grote taalmodelen (LLM's) door hun ongestructureerde uitvoer te matchen met standaardantwoorden, maar dient ook als beloningsmodel om de optimalisatie van LLM's te sturen. De meeste evaluatieframeworks vertrouwen op gereguleerde matching of maken gebruik van algemene LLM's voor antwoordverificatie, wat uitgebreide, repetitieve aanpassingen vereist voor regex-regels of evaluatieprompts. Twee fundamentele beperkingen blijven bestaan in de huidige methodologieën: 1) het ontbreken van uitgebreide benchmarks die de verificatiecapaciteiten van verschillende LLM's systematisch evalueren; en 2) het prille stadium van verifierontwikkeling, waarbij bestaande benaderingen zowel de robuustheid missen om complexe edge cases te hanteren als de generaliseerbaarheid over verschillende domeinen. In dit werk ontwikkelen we CompassVerifier, een nauwkeurig en robuust lichtgewicht verificatiemodel voor evaluatie en uitkomstbeloning. Het toont competentie aan over meerdere domeinen, waaronder wiskunde, kennis en diverse redeneertaken, met de mogelijkheid om verschillende antwoordtypen te verwerken, zoals multi-subproblemen, formules en sequentieantwoorden, terwijl het effectief abnormale/ongeldige reacties identificeert. We introduceren de VerifierBench-benchmark, bestaande uit modeluitvoer verzameld uit meerdere databronnen, verrijkt door handmatige analyse van meta-foutpatronen om CompassVerifier te verbeteren. We verwachten dat CompassVerifier en VerifierBench antwoordverificatie, evaluatieprotocollen en onderzoek naar reinforcement learning zullen vergemakkelijken. Code en dataset zijn beschikbaar op https://github.com/open-compass/CompassVerifier.
English
Answer verification is crucial not only for evaluating large language models
(LLMs) by matching their unstructured outputs against standard answers, but
also serves as the reward model to guide LLM optimization. Most evaluation
frameworks rely on regularized matching or employ general LLMs for answer
verification, which demands extensive, repetitive customization for regex rules
or evaluation prompts. Two fundamental limitations persist in current
methodologies: 1) the absence of comprehensive benchmarks that systematically
evaluate verification capabilities across different LLMs; and 2) the nascent
stage of verifier development, where existing approaches lack both the
robustness to handle complex edge cases and the generalizability across
different domains. In this work, we develop CompassVerifier, an accurate and
robust lightweight verifier model for evaluation and outcome reward. It
demonstrates multi-domain competency spanning math, knowledge, and diverse
reasoning tasks, with the capability to process various answer types, including
multi-subproblems, formulas, and sequence answers, while effectively
identifying abnormal/invalid responses. We introduce VerifierBench benchmark
comprising model outputs collected from multiple data sources, augmented
through manual analysis of metaerror patterns to enhance CompassVerifier. We
anticipate that CompassVerifier and VerifierBench will facilitate answer
verification, evaluation protocols, and reinforcement learning research. Code
and dataset are available at https://github.com/open-compass/CompassVerifier.