VerifyBench: 대규모 언어 모델을 위한 참조 기반 보상 시스템 벤치마킹
VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models
May 21, 2025
저자: Yuchen Yan, Jin Jiang, Zhenbang Ren, Yijun Li, Xudong Cai, Yang Liu, Xin Xu, Mengdi Zhang, Jian Shao, Yongliang Shen, Jun Xiao, Yueting Zhuang
cs.AI
초록
OpenAI o1 및 DeepSeek-R1과 같은 대규모 추론 모델은 추론 영역에서 뛰어난 성능을 달성했습니다. 이들의 훈련에서 핵심 요소는 강화 학습(RL) 내에서 검증 가능한 보상의 통합입니다. 그러나 기존의 보상 벤치마크는 참조 기반 보상 시스템을 평가하지 않아, RL에서 사용되는 검증기의 정확성에 대한 연구자들의 이해가 제한적입니다. 본 논문에서는 참조 기반 보상 시스템의 성능을 평가하기 위해 VerifyBench과 VerifyBench-Hard라는 두 가지 벤치마크를 소개합니다. 이러한 벤치마크는 세심한 데이터 수집 및 정제 과정을 거쳐 구성되었으며, 높은 품질을 보장하기 위해 신중한 인간 주석이 수행되었습니다. 현재 모델들은 VerifyBench과 VerifyBench-Hard 모두에서 특히 소규모 모델들을 중심으로 상당한 개선의 여지가 있음을 보여줍니다. 더불어, 평가 결과에 대한 철저하고 포괄적인 분석을 수행하여, 참조 기반 보상 시스템을 이해하고 개발하는 데 유용한 통찰을 제공합니다. 우리가 제안한 벤치마크는 검증기의 정확성과 RL을 통해 훈련된 모델의 추론 능력을 향상시키는 데 효과적인 도구로 활용될 수 있습니다.
English
Large reasoning models such as OpenAI o1 and DeepSeek-R1 have achieved
remarkable performance in the domain of reasoning. A key component of their
training is the incorporation of verifiable rewards within reinforcement
learning (RL). However, existing reward benchmarks do not evaluate
reference-based reward systems, leaving researchers with limited understanding
of the accuracy of verifiers used in RL. In this paper, we introduce two
benchmarks, VerifyBench and VerifyBench-Hard, designed to assess the
performance of reference-based reward systems. These benchmarks are constructed
through meticulous data collection and curation, followed by careful human
annotation to ensure high quality. Current models still show considerable room
for improvement on both VerifyBench and VerifyBench-Hard, especially
smaller-scale models. Furthermore, we conduct a thorough and comprehensive
analysis of evaluation results, offering insights for understanding and
developing reference-based reward systems. Our proposed benchmarks serve as
effective tools for guiding the development of verifier accuracy and the
reasoning capabilities of models trained via RL in reasoning tasks.Summary
AI-Generated Summary