CompassVerifier: Унифицированный и надежный верификатор для оценки языковых моделей и вознаграждения результатов
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward
August 5, 2025
Авторы: Shudong Liu, Hongwei Liu, Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen
cs.AI
Аннотация
Проверка ответов имеет решающее значение не только для оценки больших языковых моделей (LLM) путем сопоставления их неструктурированных выводов с эталонными ответами, но также служит моделью вознаграждения для оптимизации LLM. Большинство систем оценки полагаются на регулярные выражения или используют общие LLM для проверки ответов, что требует обширной и повторяющейся настройки правил регулярных выражений или оценочных промптов. В текущих методологиях сохраняются два фундаментальных ограничения: 1) отсутствие всеобъемлющих бенчмарков, которые систематически оценивают возможности проверки для различных LLM; и 2) начальная стадия разработки верификаторов, где существующие подходы не обладают ни устойчивостью к сложным краевым случаям, ни универсальностью для различных доменов. В данной работе мы разрабатываем CompassVerifier — точную и устойчивую легковесную модель верификатора для оценки и вознаграждения результатов. Она демонстрирует компетентность в различных областях, включая математику, знания и разнообразные задачи на логическое мышление, с возможностью обработки различных типов ответов, таких как многосоставные задачи, формулы и последовательные ответы, а также эффективно выявляет аномальные/некорректные ответы. Мы представляем бенчмарк VerifierBench, состоящий из выводов моделей, собранных из множества источников данных, дополненных ручным анализом паттернов метаошибок для улучшения CompassVerifier. Мы ожидаем, что CompassVerifier и VerifierBench будут способствовать развитию проверки ответов, протоколов оценки и исследований в области обучения с подкреплением. Код и набор данных доступны по адресу https://github.com/open-compass/CompassVerifier.
English
Answer verification is crucial not only for evaluating large language models
(LLMs) by matching their unstructured outputs against standard answers, but
also serves as the reward model to guide LLM optimization. Most evaluation
frameworks rely on regularized matching or employ general LLMs for answer
verification, which demands extensive, repetitive customization for regex rules
or evaluation prompts. Two fundamental limitations persist in current
methodologies: 1) the absence of comprehensive benchmarks that systematically
evaluate verification capabilities across different LLMs; and 2) the nascent
stage of verifier development, where existing approaches lack both the
robustness to handle complex edge cases and the generalizability across
different domains. In this work, we develop CompassVerifier, an accurate and
robust lightweight verifier model for evaluation and outcome reward. It
demonstrates multi-domain competency spanning math, knowledge, and diverse
reasoning tasks, with the capability to process various answer types, including
multi-subproblems, formulas, and sequence answers, while effectively
identifying abnormal/invalid responses. We introduce VerifierBench benchmark
comprising model outputs collected from multiple data sources, augmented
through manual analysis of metaerror patterns to enhance CompassVerifier. We
anticipate that CompassVerifier and VerifierBench will facilitate answer
verification, evaluation protocols, and reinforcement learning research. Code
and dataset are available at https://github.com/open-compass/CompassVerifier.