xVerify: Efficiënte Antwoordverifier voor Evaluatie van Redeneermodellen
xVerify: Efficient Answer Verifier for Reasoning Model Evaluations
April 14, 2025
Auteurs: Ding Chen, Qingchen Yu, Pengyuan Wang, Wentao Zhang, Bo Tang, Feiyu Xiong, Xinchi Li, Minchuan Yang, Zhiyu Li
cs.AI
Samenvatting
Met de release van het o1-model door OpenAI zijn redeneermodellen die langzame denkstrategieën toepassen geleidelijk aan opgekomen. Omdat de reacties die door dergelijke modellen worden gegenereerd vaak complexe redeneringen, tussenstappen en zelfreflectie bevatten, zijn bestaande evaluatiemethoden vaak ontoereikend. Ze hebben moeite om te bepalen of de LLM-uitvoer daadwerkelijk equivalent is aan het referentieantwoord, en hebben ook moeite om het uiteindelijke antwoord te identificeren en te extraheren uit lange, complexe reacties. Om dit probleem aan te pakken, stellen we xVerify voor, een efficiënte antwoordverifier voor de evaluatie van redeneermodellen. xVerify toont een sterke capaciteit in equivalentiebeoordeling, waardoor het effectief kan bepalen of de antwoorden die door redeneermodellen worden geproduceerd equivalent zijn aan referentieantwoorden voor verschillende soorten objectieve vragen. Om xVerify te trainen en te evalueren, construeren we de VAR-dataset door vraag-antwoordparen te verzamelen die gegenereerd zijn door meerdere LLM's over verschillende datasets, waarbij gebruik wordt gemaakt van meerdere redeneermodellen en uitdagende evaluatiesets die specifiek zijn ontworpen voor de beoordeling van redeneermodellen. Een meerronde annotatieproces wordt gebruikt om de nauwkeurigheid van de labels te waarborgen. Op basis van de VAR-dataset trainen we meerdere xVerify-modellen van verschillende schalen. In evaluatie-experimenten die zijn uitgevoerd op zowel de testset als de generalisatieset, behalen alle xVerify-modellen overall F1-scores en nauwkeurigheid van meer dan 95%. Opmerkelijk is dat de kleinste variant, xVerify-0.5B-I, alle evaluatiemethoden overtreft behalve GPT-4o, terwijl xVerify-3B-Ib GPT-4o overtreft in overall prestaties. Deze resultaten valideren de effectiviteit en generaliseerbaarheid van xVerify.
English
With the release of the o1 model by OpenAI, reasoning models adopting slow
thinking strategies have gradually emerged. As the responses generated by such
models often include complex reasoning, intermediate steps, and
self-reflection, existing evaluation methods are often inadequate. They
struggle to determine whether the LLM output is truly equivalent to the
reference answer, and also have difficulty identifying and extracting the final
answer from long, complex responses. To address this issue, we propose xVerify,
an efficient answer verifier for reasoning model evaluations. xVerify
demonstrates strong capability in equivalence judgment, enabling it to
effectively determine whether the answers produced by reasoning models are
equivalent to reference answers across various types of objective questions. To
train and evaluate xVerify, we construct the VAR dataset by collecting
question-answer pairs generated by multiple LLMs across various datasets,
leveraging multiple reasoning models and challenging evaluation sets designed
specifically for reasoning model assessment. A multi-round annotation process
is employed to ensure label accuracy. Based on the VAR dataset, we train
multiple xVerify models of different scales. In evaluation experiments
conducted on both the test set and generalization set, all xVerify models
achieve overall F1 scores and accuracy exceeding 95\%. Notably, the smallest
variant, xVerify-0.5B-I, outperforms all evaluation methods except GPT-4o,
while xVerify-3B-Ib surpasses GPT-4o in overall performance. These results
validate the effectiveness and generalizability of xVerify.Summary
AI-Generated Summary