CompassVerifier : Un vérificateur unifié et robuste pour l'évaluation des LLM et la récompense des résultats
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward
August 5, 2025
papers.authors: Shudong Liu, Hongwei Liu, Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen
cs.AI
papers.abstract
La vérification des réponses est cruciale non seulement pour évaluer les grands modèles de langage (LLMs) en comparant leurs sorties non structurées à des réponses standard, mais elle sert également de modèle de récompense pour guider l'optimisation des LLMs. La plupart des cadres d'évaluation reposent sur des correspondances régularisées ou utilisent des LLMs généraux pour la vérification des réponses, ce qui nécessite une personnalisation extensive et répétitive des règles regex ou des prompts d'évaluation. Deux limitations fondamentales persistent dans les méthodologies actuelles : 1) l'absence de benchmarks complets qui évaluent systématiquement les capacités de vérification à travers différents LLMs ; et 2) le stade naissant du développement des vérificateurs, où les approches existantes manquent à la fois de robustesse pour gérer des cas limites complexes et de généralisabilité à travers différents domaines. Dans ce travail, nous développons CompassVerifier, un modèle de vérification léger, précis et robuste pour l'évaluation et la récompense des résultats. Il démontre une compétence multi-domaines couvrant les mathématiques, les connaissances et diverses tâches de raisonnement, avec la capacité de traiter différents types de réponses, y compris les sous-problèmes multiples, les formules et les séquences de réponses, tout en identifiant efficacement les réponses anormales/invalides. Nous introduisons le benchmark VerifierBench, composé de sorties de modèles collectées à partir de multiples sources de données, enrichies par une analyse manuelle des patterns de méta-erreurs pour améliorer CompassVerifier. Nous anticipons que CompassVerifier et VerifierBench faciliteront la vérification des réponses, les protocoles d'évaluation et la recherche en apprentissage par renforcement. Le code et le jeu de données sont disponibles à l'adresse https://github.com/open-compass/CompassVerifier.
English
Answer verification is crucial not only for evaluating large language models
(LLMs) by matching their unstructured outputs against standard answers, but
also serves as the reward model to guide LLM optimization. Most evaluation
frameworks rely on regularized matching or employ general LLMs for answer
verification, which demands extensive, repetitive customization for regex rules
or evaluation prompts. Two fundamental limitations persist in current
methodologies: 1) the absence of comprehensive benchmarks that systematically
evaluate verification capabilities across different LLMs; and 2) the nascent
stage of verifier development, where existing approaches lack both the
robustness to handle complex edge cases and the generalizability across
different domains. In this work, we develop CompassVerifier, an accurate and
robust lightweight verifier model for evaluation and outcome reward. It
demonstrates multi-domain competency spanning math, knowledge, and diverse
reasoning tasks, with the capability to process various answer types, including
multi-subproblems, formulas, and sequence answers, while effectively
identifying abnormal/invalid responses. We introduce VerifierBench benchmark
comprising model outputs collected from multiple data sources, augmented
through manual analysis of metaerror patterns to enhance CompassVerifier. We
anticipate that CompassVerifier and VerifierBench will facilitate answer
verification, evaluation protocols, and reinforcement learning research. Code
and dataset are available at https://github.com/open-compass/CompassVerifier.