ChatPaper.aiChatPaper

xVerify: 추론 모델 평가를 위한 효율적인 답변 검증기

xVerify: Efficient Answer Verifier for Reasoning Model Evaluations

April 14, 2025
저자: Ding Chen, Qingchen Yu, Pengyuan Wang, Wentao Zhang, Bo Tang, Feiyu Xiong, Xinchi Li, Minchuan Yang, Zhiyu Li
cs.AI

초록

OpenAI의 o1 모델 출시와 함께, 느린 사고 전략을 채택한 추론 모델들이 점차 등장하고 있습니다. 이러한 모델들이 생성하는 응답에는 복잡한 추론, 중간 단계, 그리고 자기 반성이 포함되는 경우가 많기 때문에, 기존의 평가 방법들은 종종 부적절합니다. 이러한 방법들은 LLM 출력이 참조 답변과 진정으로 동등한지 여부를 판단하기 어려울 뿐만 아니라, 길고 복잡한 응답에서 최종 답변을 식별하고 추출하는 데에도 어려움을 겪습니다. 이 문제를 해결하기 위해, 우리는 추론 모델 평가를 위한 효율적인 답변 검증기인 xVerify를 제안합니다. xVerify는 동등성 판단에서 강력한 능력을 보여주며, 다양한 유형의 객관식 질문에 대해 추론 모델이 생성한 답변이 참조 답변과 동등한지 여부를 효과적으로 판단할 수 있습니다. xVerify를 훈련하고 평가하기 위해, 우리는 여러 LLM이 다양한 데이터셋에서 생성한 질문-답변 쌍을 수집하고, 여러 추론 모델과 추론 모델 평가를 위해 특별히 설계된 도전적인 평가 세트를 활용하여 VAR 데이터셋을 구축했습니다. 라벨 정확성을 보장하기 위해 다중 라운드 주석 프로세스를 사용했습니다. VAR 데이터셋을 기반으로, 우리는 다양한 규모의 xVerify 모델들을 훈련했습니다. 테스트 세트와 일반화 세트에서 수행된 평가 실험에서, 모든 xVerify 모델들은 전체 F1 점수와 정확도가 95%를 초과하는 성과를 보였습니다. 특히, 가장 작은 변형인 xVerify-0.5B-I은 GPT-4o를 제외한 모든 평가 방법을 능가했으며, xVerify-3B-Ib는 전반적인 성능에서 GPT-4o를 능가했습니다. 이러한 결과들은 xVerify의 효과성과 일반화 가능성을 검증합니다.
English
With the release of the o1 model by OpenAI, reasoning models adopting slow thinking strategies have gradually emerged. As the responses generated by such models often include complex reasoning, intermediate steps, and self-reflection, existing evaluation methods are often inadequate. They struggle to determine whether the LLM output is truly equivalent to the reference answer, and also have difficulty identifying and extracting the final answer from long, complex responses. To address this issue, we propose xVerify, an efficient answer verifier for reasoning model evaluations. xVerify demonstrates strong capability in equivalence judgment, enabling it to effectively determine whether the answers produced by reasoning models are equivalent to reference answers across various types of objective questions. To train and evaluate xVerify, we construct the VAR dataset by collecting question-answer pairs generated by multiple LLMs across various datasets, leveraging multiple reasoning models and challenging evaluation sets designed specifically for reasoning model assessment. A multi-round annotation process is employed to ensure label accuracy. Based on the VAR dataset, we train multiple xVerify models of different scales. In evaluation experiments conducted on both the test set and generalization set, all xVerify models achieve overall F1 scores and accuracy exceeding 95\%. Notably, the smallest variant, xVerify-0.5B-I, outperforms all evaluation methods except GPT-4o, while xVerify-3B-Ib surpasses GPT-4o in overall performance. These results validate the effectiveness and generalizability of xVerify.

Summary

AI-Generated Summary

PDF842April 16, 2025