xVerify: 推論モデル評価のための効率的な回答検証システム
xVerify: Efficient Answer Verifier for Reasoning Model Evaluations
April 14, 2025
著者: Ding Chen, Qingchen Yu, Pengyuan Wang, Wentao Zhang, Bo Tang, Feiyu Xiong, Xinchi Li, Minchuan Yang, Zhiyu Li
cs.AI
要旨
OpenAIによるo1モデルのリリースに伴い、スローシンキング戦略を採用した推論モデルが徐々に登場しています。このようなモデルが生成する応答には、複雑な推論、中間ステップ、自己反映が含まれることが多いため、既存の評価手法では不十分な場合が多く見られます。それらは、LLMの出力が参照回答と真に等価であるかどうかを判断するのに苦労し、また、長く複雑な応答から最終的な回答を特定して抽出することにも困難を抱えています。この問題に対処するため、私たちはxVerifyを提案します。xVerifyは、推論モデル評価のための効率的な回答検証ツールであり、等価性判断において強力な能力を発揮し、推論モデルが生成した回答が様々なタイプの客観的問題における参照回答と等価であるかどうかを効果的に判断することができます。xVerifyの訓練と評価のために、私たちはVARデータセットを構築しました。このデータセットは、複数のLLMが様々なデータセット上で生成した質問-回答ペアを収集し、複数の推論モデルと推論モデル評価のために特別に設計された挑戦的な評価セットを活用しています。ラベルの正確性を確保するために、複数回のアノテーションプロセスが採用されています。VARデータセットに基づいて、私たちは異なる規模の複数のxVerifyモデルを訓練しました。テストセットと汎化セットで実施された評価実験では、すべてのxVerifyモデルが全体のF1スコアと精度で95\%を超える結果を達成しました。特に、最小バージョンのxVerify-0.5B-Iは、GPT-4oを除くすべての評価手法を上回り、xVerify-3B-Ibは全体のパフォーマンスでGPT-4oを凌駕しました。これらの結果は、xVerifyの有効性と汎用性を検証するものです。
English
With the release of the o1 model by OpenAI, reasoning models adopting slow
thinking strategies have gradually emerged. As the responses generated by such
models often include complex reasoning, intermediate steps, and
self-reflection, existing evaluation methods are often inadequate. They
struggle to determine whether the LLM output is truly equivalent to the
reference answer, and also have difficulty identifying and extracting the final
answer from long, complex responses. To address this issue, we propose xVerify,
an efficient answer verifier for reasoning model evaluations. xVerify
demonstrates strong capability in equivalence judgment, enabling it to
effectively determine whether the answers produced by reasoning models are
equivalent to reference answers across various types of objective questions. To
train and evaluate xVerify, we construct the VAR dataset by collecting
question-answer pairs generated by multiple LLMs across various datasets,
leveraging multiple reasoning models and challenging evaluation sets designed
specifically for reasoning model assessment. A multi-round annotation process
is employed to ensure label accuracy. Based on the VAR dataset, we train
multiple xVerify models of different scales. In evaluation experiments
conducted on both the test set and generalization set, all xVerify models
achieve overall F1 scores and accuracy exceeding 95\%. Notably, the smallest
variant, xVerify-0.5B-I, outperforms all evaluation methods except GPT-4o,
while xVerify-3B-Ib surpasses GPT-4o in overall performance. These results
validate the effectiveness and generalizability of xVerify.Summary
AI-Generated Summary