xVerify: Efficiënte Antwoordverifier voor Evaluatie van RedeneermodellenxVerify: Efficient Answer Verifier for Reasoning Model Evaluations
Met de release van het o1-model door OpenAI zijn redeneermodellen die langzame denkstrategieën toepassen geleidelijk aan opgekomen. Omdat de reacties die door dergelijke modellen worden gegenereerd vaak complexe redeneringen, tussenstappen en zelfreflectie bevatten, zijn bestaande evaluatiemethoden vaak ontoereikend. Ze hebben moeite om te bepalen of de LLM-uitvoer daadwerkelijk equivalent is aan het referentieantwoord, en hebben ook moeite om het uiteindelijke antwoord te identificeren en te extraheren uit lange, complexe reacties. Om dit probleem aan te pakken, stellen we xVerify voor, een efficiënte antwoordverifier voor de evaluatie van redeneermodellen. xVerify toont een sterke capaciteit in equivalentiebeoordeling, waardoor het effectief kan bepalen of de antwoorden die door redeneermodellen worden geproduceerd equivalent zijn aan referentieantwoorden voor verschillende soorten objectieve vragen. Om xVerify te trainen en te evalueren, construeren we de VAR-dataset door vraag-antwoordparen te verzamelen die gegenereerd zijn door meerdere LLM's over verschillende datasets, waarbij gebruik wordt gemaakt van meerdere redeneermodellen en uitdagende evaluatiesets die specifiek zijn ontworpen voor de beoordeling van redeneermodellen. Een meerronde annotatieproces wordt gebruikt om de nauwkeurigheid van de labels te waarborgen. Op basis van de VAR-dataset trainen we meerdere xVerify-modellen van verschillende schalen. In evaluatie-experimenten die zijn uitgevoerd op zowel de testset als de generalisatieset, behalen alle xVerify-modellen overall F1-scores en nauwkeurigheid van meer dan 95%. Opmerkelijk is dat de kleinste variant, xVerify-0.5B-I, alle evaluatiemethoden overtreft behalve GPT-4o, terwijl xVerify-3B-Ib GPT-4o overtreft in overall prestaties. Deze resultaten valideren de effectiviteit en generaliseerbaarheid van xVerify.