xVerify : Vérificateur de réponses efficace pour l'évaluation des modèles de raisonnement
xVerify: Efficient Answer Verifier for Reasoning Model Evaluations
April 14, 2025
Auteurs: Ding Chen, Qingchen Yu, Pengyuan Wang, Wentao Zhang, Bo Tang, Feiyu Xiong, Xinchi Li, Minchuan Yang, Zhiyu Li
cs.AI
Résumé
Avec la sortie du modèle o1 par OpenAI, des modèles de raisonnement adoptant des stratégies de pensée lente ont progressivement émergé. Comme les réponses générées par ces modèles incluent souvent un raisonnement complexe, des étapes intermédiaires et de l'auto-réflexion, les méthodes d'évaluation existantes se révèlent souvent inadéquates. Elles peinent à déterminer si la sortie du LLM est véritablement équivalente à la réponse de référence, et ont également des difficultés à identifier et extraire la réponse finale à partir de réponses longues et complexes. Pour résoudre ce problème, nous proposons xVerify, un vérificateur de réponses efficace pour l'évaluation des modèles de raisonnement. xVerify démontre une forte capacité en jugement d'équivalence, lui permettant de déterminer efficacement si les réponses produites par les modèles de raisonnement sont équivalentes aux réponses de référence pour divers types de questions objectives. Pour entraîner et évaluer xVerify, nous construisons le jeu de données VAR en collectant des paires question-réponse générées par plusieurs LLMs sur divers jeux de données, en exploitant plusieurs modèles de raisonnement et des ensembles d'évaluation conçus spécifiquement pour l'évaluation des modèles de raisonnement. Un processus d'annotation en plusieurs tours est employé pour garantir la précision des étiquettes. Sur la base du jeu de données VAR, nous entraînons plusieurs modèles xVerify de différentes tailles. Dans les expériences d'évaluation menées sur l'ensemble de test et l'ensemble de généralisation, tous les modèles xVerify atteignent des scores F1 et une précision globale dépassant 95\%. Notamment, la plus petite variante, xVerify-0.5B-I, surpasse toutes les méthodes d'évaluation à l'exception de GPT-4o, tandis que xVerify-3B-Ib dépasse GPT-4o en performance globale. Ces résultats valident l'efficacité et la généralisabilité de xVerify.
English
With the release of the o1 model by OpenAI, reasoning models adopting slow
thinking strategies have gradually emerged. As the responses generated by such
models often include complex reasoning, intermediate steps, and
self-reflection, existing evaluation methods are often inadequate. They
struggle to determine whether the LLM output is truly equivalent to the
reference answer, and also have difficulty identifying and extracting the final
answer from long, complex responses. To address this issue, we propose xVerify,
an efficient answer verifier for reasoning model evaluations. xVerify
demonstrates strong capability in equivalence judgment, enabling it to
effectively determine whether the answers produced by reasoning models are
equivalent to reference answers across various types of objective questions. To
train and evaluate xVerify, we construct the VAR dataset by collecting
question-answer pairs generated by multiple LLMs across various datasets,
leveraging multiple reasoning models and challenging evaluation sets designed
specifically for reasoning model assessment. A multi-round annotation process
is employed to ensure label accuracy. Based on the VAR dataset, we train
multiple xVerify models of different scales. In evaluation experiments
conducted on both the test set and generalization set, all xVerify models
achieve overall F1 scores and accuracy exceeding 95\%. Notably, the smallest
variant, xVerify-0.5B-I, outperforms all evaluation methods except GPT-4o,
while xVerify-3B-Ib surpasses GPT-4o in overall performance. These results
validate the effectiveness and generalizability of xVerify.Summary
AI-Generated Summary