xVerify: Effiziente Antwortverifikation für die Bewertung von Reasoning-ModellenxVerify: Efficient Answer Verifier for Reasoning Model Evaluations
Mit der Veröffentlichung des o1-Modells von OpenAI haben sich nach und nach Reasoning-Modelle durchgesetzt, die langsame Denkstrategien anwenden. Da die von solchen Modellen generierten Antworten oft komplexe Schlussfolgerungen, Zwischenschritte und Selbstreflexion enthalten, sind bestehende Evaluierungsmethoden häufig unzureichend. Sie haben Schwierigkeiten, festzustellen, ob die Ausgabe des LLM tatsächlich der Referenzantwort entspricht, und es fällt ihnen schwer, die endgültige Antwort aus langen, komplexen Antworten zu identifizieren und zu extrahieren. Um dieses Problem zu lösen, schlagen wir xVerify vor, einen effizienten Antwortprüfer für die Bewertung von Reasoning-Modellen. xVerify zeigt eine starke Fähigkeit in der Äquivalenzbeurteilung, wodurch es effektiv bestimmen kann, ob die von Reasoning-Modellen erzeugten Antworten den Referenzantworten bei verschiedenen Arten von objektiven Fragen entsprechen. Um xVerify zu trainieren und zu bewerten, erstellen wir den VAR-Datensatz, indem wir Frage-Antwort-Paare sammeln, die von mehreren LLMs über verschiedene Datensätze hinweg generiert wurden, und dabei mehrere Reasoning-Modelle sowie anspruchsvolle Evaluierungssätze nutzen, die speziell für die Bewertung von Reasoning-Modellen entwickelt wurden. Ein mehrstufiger Annotationsprozess wird eingesetzt, um die Genauigkeit der Labels sicherzustellen. Basierend auf dem VAR-Datensatz trainieren wir mehrere xVerify-Modelle unterschiedlicher Größe. In Evaluierungsexperimenten, die sowohl auf dem Testset als auch auf dem Generalisierungsset durchgeführt wurden, erreichen alle xVerify-Modelle Gesamt-F1-Werte und Genauigkeiten von über 95 %. Bemerkenswerterweise übertrifft die kleinste Variante, xVerify-0.5B-I, alle Evaluierungsmethoden außer GPT-4o, während xVerify-3B-Ib GPT-4o in der Gesamtleistung übertrifft. Diese Ergebnisse bestätigen die Wirksamkeit und Generalisierbarkeit von xVerify.