CompassVerifier: Un Verificatore Unificato e Robusto per la Valutazione e la Ricompensa dei Risultati nei Modelli Linguistici di Grande Dimensione
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward
August 5, 2025
Autori: Shudong Liu, Hongwei Liu, Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen
cs.AI
Abstract
La verifica delle risposte è cruciale non solo per valutare i grandi modelli linguistici (LLM) confrontando i loro output non strutturati con risposte standard, ma funge anche da modello di ricompensa per guidare l'ottimizzazione dei LLM. La maggior parte dei framework di valutazione si basa su corrispondenze regolarizzate o utilizza LLM generici per la verifica delle risposte, il che richiede un'ampia e ripetitiva personalizzazione delle regole regex o dei prompt di valutazione. Due limitazioni fondamentali persistono nelle metodologie attuali: 1) l'assenza di benchmark completi che valutino sistematicamente le capacità di verifica tra diversi LLM; e 2) lo stadio iniziale dello sviluppo dei verificatori, in cui gli approcci esistenti mancano sia della robustezza necessaria per gestire casi limite complessi sia della generalizzabilità attraverso diversi domini. In questo lavoro, sviluppiamo CompassVerifier, un modello verificatore leggero, accurato e robusto per la valutazione e la ricompensa degli esiti. Dimostra competenza multi-dominio che abbraccia matematica, conoscenza e vari compiti di ragionamento, con la capacità di elaborare diversi tipi di risposte, inclusi problemi con più sotto-problemi, formule e sequenze di risposte, identificando efficacemente risposte anormali/invalide. Introduciamo il benchmark VerifierBench, composto da output di modelli raccolti da molteplici fonti di dati, arricchito attraverso l'analisi manuale di pattern di meta-errori per migliorare CompassVerifier. Ci aspettiamo che CompassVerifier e VerifierBench facilitino la verifica delle risposte, i protocolli di valutazione e la ricerca sul reinforcement learning. Codice e dataset sono disponibili su https://github.com/open-compass/CompassVerifier.
English
Answer verification is crucial not only for evaluating large language models
(LLMs) by matching their unstructured outputs against standard answers, but
also serves as the reward model to guide LLM optimization. Most evaluation
frameworks rely on regularized matching or employ general LLMs for answer
verification, which demands extensive, repetitive customization for regex rules
or evaluation prompts. Two fundamental limitations persist in current
methodologies: 1) the absence of comprehensive benchmarks that systematically
evaluate verification capabilities across different LLMs; and 2) the nascent
stage of verifier development, where existing approaches lack both the
robustness to handle complex edge cases and the generalizability across
different domains. In this work, we develop CompassVerifier, an accurate and
robust lightweight verifier model for evaluation and outcome reward. It
demonstrates multi-domain competency spanning math, knowledge, and diverse
reasoning tasks, with the capability to process various answer types, including
multi-subproblems, formulas, and sequence answers, while effectively
identifying abnormal/invalid responses. We introduce VerifierBench benchmark
comprising model outputs collected from multiple data sources, augmented
through manual analysis of metaerror patterns to enhance CompassVerifier. We
anticipate that CompassVerifier and VerifierBench will facilitate answer
verification, evaluation protocols, and reinforcement learning research. Code
and dataset are available at https://github.com/open-compass/CompassVerifier.