xVerify: 推論モデル評価のための効率的な回答検証システムxVerify: Efficient Answer Verifier for Reasoning Model Evaluations
OpenAIによるo1モデルのリリースに伴い、スローシンキング戦略を採用した推論モデルが徐々に登場しています。このようなモデルが生成する応答には、複雑な推論、中間ステップ、自己反映が含まれることが多いため、既存の評価手法では不十分な場合が多く見られます。それらは、LLMの出力が参照回答と真に等価であるかどうかを判断するのに苦労し、また、長く複雑な応答から最終的な回答を特定して抽出することにも困難を抱えています。この問題に対処するため、私たちはxVerifyを提案します。xVerifyは、推論モデル評価のための効率的な回答検証ツールであり、等価性判断において強力な能力を発揮し、推論モデルが生成した回答が様々なタイプの客観的問題における参照回答と等価であるかどうかを効果的に判断することができます。xVerifyの訓練と評価のために、私たちはVARデータセットを構築しました。このデータセットは、複数のLLMが様々なデータセット上で生成した質問-回答ペアを収集し、複数の推論モデルと推論モデル評価のために特別に設計された挑戦的な評価セットを活用しています。ラベルの正確性を確保するために、複数回のアノテーションプロセスが採用されています。VARデータセットに基づいて、私たちは異なる規模の複数のxVerifyモデルを訓練しました。テストセットと汎化セットで実施された評価実験では、すべてのxVerifyモデルが全体のF1スコアと精度で95\%を超える結果を達成しました。特に、最小バージョンのxVerify-0.5B-Iは、GPT-4oを除くすべての評価手法を上回り、xVerify-3B-Ibは全体のパフォーマンスでGPT-4oを凌駕しました。これらの結果は、xVerifyの有効性と汎用性を検証するものです。