xVerify : Vérificateur de réponses efficace pour l'évaluation des modÚles de raisonnementxVerify: Efficient Answer Verifier for Reasoning Model Evaluations
Avec la sortie du modÚle o1 par OpenAI, des modÚles de raisonnement adoptant des stratégies de pensée lente ont progressivement émergé. Comme les réponses générées par ces modÚles incluent souvent un raisonnement complexe, des étapes intermédiaires et de l'auto-réflexion, les méthodes d'évaluation existantes se révÚlent souvent inadéquates. Elles peinent à déterminer si la sortie du LLM est véritablement équivalente à la réponse de référence, et ont également des difficultés à identifier et extraire la réponse finale à partir de réponses longues et complexes. Pour résoudre ce problÚme, nous proposons xVerify, un vérificateur de réponses efficace pour l'évaluation des modÚles de raisonnement. xVerify démontre une forte capacité en jugement d'équivalence, lui permettant de déterminer efficacement si les réponses produites par les modÚles de raisonnement sont équivalentes aux réponses de référence pour divers types de questions objectives. Pour entraßner et évaluer xVerify, nous construisons le jeu de données VAR en collectant des paires question-réponse générées par plusieurs LLMs sur divers jeux de données, en exploitant plusieurs modÚles de raisonnement et des ensembles d'évaluation conçus spécifiquement pour l'évaluation des modÚles de raisonnement. Un processus d'annotation en plusieurs tours est employé pour garantir la précision des étiquettes. Sur la base du jeu de données VAR, nous entraßnons plusieurs modÚles xVerify de différentes tailles. Dans les expériences d'évaluation menées sur l'ensemble de test et l'ensemble de généralisation, tous les modÚles xVerify atteignent des scores F1 et une précision globale dépassant 95\%. Notamment, la plus petite variante, xVerify-0.5B-I, surpasse toutes les méthodes d'évaluation à l'exception de GPT-4o, tandis que xVerify-3B-Ib dépasse GPT-4o en performance globale. Ces résultats valident l'efficacité et la généralisabilité de xVerify.