CompassVerifier: Um Verificador Unificado e Robusto para Avaliação de LLMs e Recompensa de Resultados
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward
August 5, 2025
Autores: Shudong Liu, Hongwei Liu, Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen
cs.AI
Resumo
A verificação de respostas é crucial não apenas para avaliar modelos de linguagem de grande escala (LLMs) ao comparar suas saídas não estruturadas com respostas padrão, mas também serve como modelo de recompensa para orientar a otimização de LLMs. A maioria dos frameworks de avaliação depende de correspondência regularizada ou emprega LLMs gerais para verificação de respostas, o que exige uma extensa e repetitiva personalização de regras de expressões regulares ou prompts de avaliação. Duas limitações fundamentais persistem nas metodologias atuais: 1) a ausência de benchmarks abrangentes que avaliam sistematicamente as capacidades de verificação em diferentes LLMs; e 2) o estágio inicial de desenvolvimento de verificadores, onde as abordagens existentes carecem tanto de robustez para lidar com casos complexos de borda quanto de generalização entre diferentes domínios. Neste trabalho, desenvolvemos o CompassVerifier, um modelo verificador leve, preciso e robusto para avaliação e recompensa de resultados. Ele demonstra competência em múltiplos domínios, abrangendo matemática, conhecimento e diversas tarefas de raciocínio, com a capacidade de processar vários tipos de respostas, incluindo múltiplos subproblemas, fórmulas e sequências de respostas, enquanto identifica efetivamente respostas anormais/inválidas. Introduzimos o benchmark VerifierBench, composto por saídas de modelos coletadas de múltiplas fontes de dados, aprimoradas por meio de análise manual de padrões de metaerros para melhorar o CompassVerifier. Antecipamos que o CompassVerifier e o VerifierBench facilitarão a verificação de respostas, protocolos de avaliação e pesquisas em aprendizado por reforço. O código e o conjunto de dados estão disponíveis em https://github.com/open-compass/CompassVerifier.
English
Answer verification is crucial not only for evaluating large language models
(LLMs) by matching their unstructured outputs against standard answers, but
also serves as the reward model to guide LLM optimization. Most evaluation
frameworks rely on regularized matching or employ general LLMs for answer
verification, which demands extensive, repetitive customization for regex rules
or evaluation prompts. Two fundamental limitations persist in current
methodologies: 1) the absence of comprehensive benchmarks that systematically
evaluate verification capabilities across different LLMs; and 2) the nascent
stage of verifier development, where existing approaches lack both the
robustness to handle complex edge cases and the generalizability across
different domains. In this work, we develop CompassVerifier, an accurate and
robust lightweight verifier model for evaluation and outcome reward. It
demonstrates multi-domain competency spanning math, knowledge, and diverse
reasoning tasks, with the capability to process various answer types, including
multi-subproblems, formulas, and sequence answers, while effectively
identifying abnormal/invalid responses. We introduce VerifierBench benchmark
comprising model outputs collected from multiple data sources, augmented
through manual analysis of metaerror patterns to enhance CompassVerifier. We
anticipate that CompassVerifier and VerifierBench will facilitate answer
verification, evaluation protocols, and reinforcement learning research. Code
and dataset are available at https://github.com/open-compass/CompassVerifier.