ChatPaper.aiChatPaper

xVerify: Effiziente Antwortverifikation für die Bewertung von Reasoning-Modellen

xVerify: Efficient Answer Verifier for Reasoning Model Evaluations

April 14, 2025
Autoren: Ding Chen, Qingchen Yu, Pengyuan Wang, Wentao Zhang, Bo Tang, Feiyu Xiong, Xinchi Li, Minchuan Yang, Zhiyu Li
cs.AI

Zusammenfassung

Mit der Veröffentlichung des o1-Modells von OpenAI haben sich nach und nach Reasoning-Modelle durchgesetzt, die langsame Denkstrategien anwenden. Da die von solchen Modellen generierten Antworten oft komplexe Schlussfolgerungen, Zwischenschritte und Selbstreflexion enthalten, sind bestehende Evaluierungsmethoden häufig unzureichend. Sie haben Schwierigkeiten, festzustellen, ob die Ausgabe des LLM tatsächlich der Referenzantwort entspricht, und es fällt ihnen schwer, die endgültige Antwort aus langen, komplexen Antworten zu identifizieren und zu extrahieren. Um dieses Problem zu lösen, schlagen wir xVerify vor, einen effizienten Antwortprüfer für die Bewertung von Reasoning-Modellen. xVerify zeigt eine starke Fähigkeit in der Äquivalenzbeurteilung, wodurch es effektiv bestimmen kann, ob die von Reasoning-Modellen erzeugten Antworten den Referenzantworten bei verschiedenen Arten von objektiven Fragen entsprechen. Um xVerify zu trainieren und zu bewerten, erstellen wir den VAR-Datensatz, indem wir Frage-Antwort-Paare sammeln, die von mehreren LLMs über verschiedene Datensätze hinweg generiert wurden, und dabei mehrere Reasoning-Modelle sowie anspruchsvolle Evaluierungssätze nutzen, die speziell für die Bewertung von Reasoning-Modellen entwickelt wurden. Ein mehrstufiger Annotationsprozess wird eingesetzt, um die Genauigkeit der Labels sicherzustellen. Basierend auf dem VAR-Datensatz trainieren wir mehrere xVerify-Modelle unterschiedlicher Größe. In Evaluierungsexperimenten, die sowohl auf dem Testset als auch auf dem Generalisierungsset durchgeführt wurden, erreichen alle xVerify-Modelle Gesamt-F1-Werte und Genauigkeiten von über 95 %. Bemerkenswerterweise übertrifft die kleinste Variante, xVerify-0.5B-I, alle Evaluierungsmethoden außer GPT-4o, während xVerify-3B-Ib GPT-4o in der Gesamtleistung übertrifft. Diese Ergebnisse bestätigen die Wirksamkeit und Generalisierbarkeit von xVerify.
English
With the release of the o1 model by OpenAI, reasoning models adopting slow thinking strategies have gradually emerged. As the responses generated by such models often include complex reasoning, intermediate steps, and self-reflection, existing evaluation methods are often inadequate. They struggle to determine whether the LLM output is truly equivalent to the reference answer, and also have difficulty identifying and extracting the final answer from long, complex responses. To address this issue, we propose xVerify, an efficient answer verifier for reasoning model evaluations. xVerify demonstrates strong capability in equivalence judgment, enabling it to effectively determine whether the answers produced by reasoning models are equivalent to reference answers across various types of objective questions. To train and evaluate xVerify, we construct the VAR dataset by collecting question-answer pairs generated by multiple LLMs across various datasets, leveraging multiple reasoning models and challenging evaluation sets designed specifically for reasoning model assessment. A multi-round annotation process is employed to ensure label accuracy. Based on the VAR dataset, we train multiple xVerify models of different scales. In evaluation experiments conducted on both the test set and generalization set, all xVerify models achieve overall F1 scores and accuracy exceeding 95\%. Notably, the smallest variant, xVerify-0.5B-I, outperforms all evaluation methods except GPT-4o, while xVerify-3B-Ib surpasses GPT-4o in overall performance. These results validate the effectiveness and generalizability of xVerify.

Summary

AI-Generated Summary

PDF842April 16, 2025