CompassVerifier: Un verificador unificado y robusto para la evaluación de LLM y recompensa de resultados
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward
August 5, 2025
Autores: Shudong Liu, Hongwei Liu, Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen
cs.AI
Resumen
La verificación de respuestas es crucial no solo para evaluar los modelos de lenguaje de gran escala (LLMs) al comparar sus salidas no estructuradas con respuestas estándar, sino que también sirve como modelo de recompensa para guiar la optimización de los LLMs. La mayoría de los marcos de evaluación dependen de coincidencias regularizadas o emplean LLMs generales para la verificación de respuestas, lo que requiere una personalización extensa y repetitiva de reglas de expresiones regulares o indicaciones de evaluación. Dos limitaciones fundamentales persisten en las metodologías actuales: 1) la ausencia de puntos de referencia integrales que evalúen sistemáticamente las capacidades de verificación en diferentes LLMs; y 2) la etapa incipiente del desarrollo de verificadores, donde los enfoques existentes carecen tanto de la robustez para manejar casos extremos complejos como de la generalización en diferentes dominios. En este trabajo, desarrollamos CompassVerifier, un modelo verificador ligero, preciso y robusto para la evaluación y recompensa de resultados. Demuestra competencia en múltiples dominios que abarcan matemáticas, conocimiento y diversas tareas de razonamiento, con la capacidad de procesar varios tipos de respuestas, incluyendo subproblemas múltiples, fórmulas y secuencias de respuestas, mientras identifica eficazmente respuestas anómalas/inválidas. Introducimos el punto de referencia VerifierBench, que comprende salidas de modelos recopiladas de múltiples fuentes de datos, aumentadas mediante análisis manual de patrones de metaerrores para mejorar CompassVerifier. Anticipamos que CompassVerifier y VerifierBench facilitarán la verificación de respuestas, los protocolos de evaluación y la investigación en aprendizaje por refuerzo. El código y el conjunto de datos están disponibles en https://github.com/open-compass/CompassVerifier.
English
Answer verification is crucial not only for evaluating large language models
(LLMs) by matching their unstructured outputs against standard answers, but
also serves as the reward model to guide LLM optimization. Most evaluation
frameworks rely on regularized matching or employ general LLMs for answer
verification, which demands extensive, repetitive customization for regex rules
or evaluation prompts. Two fundamental limitations persist in current
methodologies: 1) the absence of comprehensive benchmarks that systematically
evaluate verification capabilities across different LLMs; and 2) the nascent
stage of verifier development, where existing approaches lack both the
robustness to handle complex edge cases and the generalizability across
different domains. In this work, we develop CompassVerifier, an accurate and
robust lightweight verifier model for evaluation and outcome reward. It
demonstrates multi-domain competency spanning math, knowledge, and diverse
reasoning tasks, with the capability to process various answer types, including
multi-subproblems, formulas, and sequence answers, while effectively
identifying abnormal/invalid responses. We introduce VerifierBench benchmark
comprising model outputs collected from multiple data sources, augmented
through manual analysis of metaerror patterns to enhance CompassVerifier. We
anticipate that CompassVerifier and VerifierBench will facilitate answer
verification, evaluation protocols, and reinforcement learning research. Code
and dataset are available at https://github.com/open-compass/CompassVerifier.