xVerify: Verificatore Efficiente delle Risposte per la Valutazione dei Modelli di RagionamentoxVerify: Efficient Answer Verifier for Reasoning Model Evaluations
Con il rilascio del modello o1 da parte di OpenAI, sono gradualmente emersi modelli di ragionamento che adottano strategie di pensiero lento. Poiché le risposte generate da tali modelli spesso includono ragionamenti complessi, passaggi intermedi e autoriflessione, i metodi di valutazione esistenti si rivelano spesso inadeguati. Faticano a determinare se l'output del modello linguistico (LLM) sia effettivamente equivalente alla risposta di riferimento e hanno difficoltà a identificare ed estrarre la risposta finale da risposte lunghe e complesse. Per affrontare questo problema, proponiamo xVerify, un verificatore di risposte efficiente per la valutazione dei modelli di ragionamento. xVerify dimostra una forte capacità nel giudicare l'equivalenza, consentendogli di determinare efficacemente se le risposte prodotte dai modelli di ragionamento siano equivalenti alle risposte di riferimento su vari tipi di domande oggettive. Per addestrare e valutare xVerify, costruiamo il dataset VAR raccogliendo coppie domanda-risposta generate da più LLM su vari dataset, sfruttando modelli di ragionamento multipli e set di valutazione progettati specificamente per la valutazione dei modelli di ragionamento. Un processo di annotazione a più round viene impiegato per garantire l'accuratezza delle etichette. Basandoci sul dataset VAR, addestriamo più modelli xVerify di diverse dimensioni. Negli esperimenti di valutazione condotti sia sul set di test che sul set di generalizzazione, tutti i modelli xVerify raggiungono punteggi F1 complessivi e accuratezza superiori al 95%. In particolare, la variante più piccola, xVerify-0.5B-I, supera tutti i metodi di valutazione tranne GPT-4o, mentre xVerify-3B-Ib supera GPT-4o in termini di prestazioni complessive. Questi risultati convalidano l'efficacia e la generalizzabilità di xVerify.