ChatPaper.aiChatPaper

CompassVerifier: LLM 평가 및 결과 보상을 위한 통합적이고 강건한 검증기

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward

August 5, 2025
저자: Shudong Liu, Hongwei Liu, Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen
cs.AI

초록

답변 검증은 대규모 언어 모델(LLM)의 비정형 출력을 표준 답안과 매칭하여 평가하는 데 있어서뿐만 아니라, LLM 최적화를 위한 보상 모델로서도 중요한 역할을 합니다. 대부분의 평가 프레임워크는 정규화된 매칭에 의존하거나 일반적인 LLM을 답변 검증에 사용하며, 이는 정규식 규칙이나 평가 프롬프트에 대한 광범위하고 반복적인 커스터마이징을 요구합니다. 현재의 방법론에는 두 가지 근본적인 한계가 존재합니다: 1) 다양한 LLM 간의 검증 능력을 체계적으로 평가하는 포괄적인 벤치마크의 부재; 2) 검증기 개발의 초기 단계로, 기존 접근법은 복잡한 예외 사례를 처리할 수 있는 견고성과 다양한 도메인 간의 일반화 능력이 부족합니다. 본 연구에서는 정확하고 견고한 경량 검증기 모델인 CompassVerifier를 개발하여 평가 및 결과 보상에 활용합니다. 이 모델은 수학, 지식, 다양한 추론 과제에 걸친 다중 도메인 역량을 보여주며, 다중 하위 문제, 수식, 시퀀스 답변을 포함한 다양한 답변 유형을 처리할 수 있고, 비정상적/무효 응답을 효과적으로 식별합니다. 또한, CompassVerifier를 강화하기 위해 메타 오류 패턴의 수동 분석을 통해 보강된 다중 데이터 소스에서 수집된 모델 출력으로 구성된 VerifierBench 벤치마크를 소개합니다. CompassVerifier와 VerifierBench가 답변 검증, 평가 프로토콜, 강화 학습 연구를 촉진할 것으로 기대합니다. 코드와 데이터셋은 https://github.com/open-compass/CompassVerifier에서 확인할 수 있습니다.
English
Answer verification is crucial not only for evaluating large language models (LLMs) by matching their unstructured outputs against standard answers, but also serves as the reward model to guide LLM optimization. Most evaluation frameworks rely on regularized matching or employ general LLMs for answer verification, which demands extensive, repetitive customization for regex rules or evaluation prompts. Two fundamental limitations persist in current methodologies: 1) the absence of comprehensive benchmarks that systematically evaluate verification capabilities across different LLMs; and 2) the nascent stage of verifier development, where existing approaches lack both the robustness to handle complex edge cases and the generalizability across different domains. In this work, we develop CompassVerifier, an accurate and robust lightweight verifier model for evaluation and outcome reward. It demonstrates multi-domain competency spanning math, knowledge, and diverse reasoning tasks, with the capability to process various answer types, including multi-subproblems, formulas, and sequence answers, while effectively identifying abnormal/invalid responses. We introduce VerifierBench benchmark comprising model outputs collected from multiple data sources, augmented through manual analysis of metaerror patterns to enhance CompassVerifier. We anticipate that CompassVerifier and VerifierBench will facilitate answer verification, evaluation protocols, and reinforcement learning research. Code and dataset are available at https://github.com/open-compass/CompassVerifier.
PDF324August 6, 2025