CompassVerifier: Ein einheitlicher und robuster Verifizierer für die Bewertung und Ergebnisbelohnung von LLMs
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward
August 5, 2025
papers.authors: Shudong Liu, Hongwei Liu, Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen
cs.AI
papers.abstract
Die Überprüfung von Antworten ist nicht nur entscheidend für die Bewertung großer Sprachmodelle (LLMs), indem ihre unstrukturierten Ausgaben mit Standardantworten abgeglichen werden, sondern dient auch als Belohnungsmodell, um die Optimierung von LLMs zu steuern. Die meisten Bewertungsrahmenwerke verlassen sich auf regulierte Abgleiche oder setzen allgemeine LLMs für die Antwortüberprüfung ein, was umfangreiche, wiederholte Anpassungen von Regex-Regeln oder Bewertungsaufforderungen erfordert. Zwei grundlegende Einschränkungen bestehen in den derzeitigen Methodologien: 1) das Fehlen umfassender Benchmarks, die die Überprüfungsfähigkeiten verschiedener LLMs systematisch bewerten; und 2) das frühe Entwicklungsstadium von Verifizierern, bei dem bestehende Ansätze sowohl die Robustheit zur Handhabung komplexer Randfälle als auch die Generalisierbarkeit über verschiedene Domänen hinweg vermissen lassen. In dieser Arbeit entwickeln wir CompassVerifier, ein präzises und robustes, leichtgewichtiges Verifizierermodell für die Bewertung und Ergebnisbelohnung. Es zeigt Kompetenz in mehreren Domänen, darunter Mathematik, Wissen und diverse Denkaufgaben, mit der Fähigkeit, verschiedene Antworttypen zu verarbeiten, einschließlich mehrerer Teilprobleme, Formeln und Sequenzantworten, während es effektiv abnormale/ungültige Antworten identifiziert. Wir stellen den VerifierBench-Benchmark vor, der Modellausgaben aus mehreren Datenquellen umfasst und durch manuelle Analyse von Metafehlermustern erweitert wurde, um CompassVerifier zu verbessern. Wir erwarten, dass CompassVerifier und VerifierBench die Antwortüberprüfung, Bewertungsprotokolle und die Forschung im Bereich des verstärkenden Lernens erleichtern werden. Code und Datensatz sind unter https://github.com/open-compass/CompassVerifier verfügbar.
English
Answer verification is crucial not only for evaluating large language models
(LLMs) by matching their unstructured outputs against standard answers, but
also serves as the reward model to guide LLM optimization. Most evaluation
frameworks rely on regularized matching or employ general LLMs for answer
verification, which demands extensive, repetitive customization for regex rules
or evaluation prompts. Two fundamental limitations persist in current
methodologies: 1) the absence of comprehensive benchmarks that systematically
evaluate verification capabilities across different LLMs; and 2) the nascent
stage of verifier development, where existing approaches lack both the
robustness to handle complex edge cases and the generalizability across
different domains. In this work, we develop CompassVerifier, an accurate and
robust lightweight verifier model for evaluation and outcome reward. It
demonstrates multi-domain competency spanning math, knowledge, and diverse
reasoning tasks, with the capability to process various answer types, including
multi-subproblems, formulas, and sequence answers, while effectively
identifying abnormal/invalid responses. We introduce VerifierBench benchmark
comprising model outputs collected from multiple data sources, augmented
through manual analysis of metaerror patterns to enhance CompassVerifier. We
anticipate that CompassVerifier and VerifierBench will facilitate answer
verification, evaluation protocols, and reinforcement learning research. Code
and dataset are available at https://github.com/open-compass/CompassVerifier.