xVerify: Verificador Eficiente de Respuestas para Evaluaciones de Modelos de Razonamiento
xVerify: Efficient Answer Verifier for Reasoning Model Evaluations
April 14, 2025
Autores: Ding Chen, Qingchen Yu, Pengyuan Wang, Wentao Zhang, Bo Tang, Feiyu Xiong, Xinchi Li, Minchuan Yang, Zhiyu Li
cs.AI
Resumen
Con el lanzamiento del modelo o1 por OpenAI, han surgido gradualmente modelos de razonamiento que adoptan estrategias de pensamiento lento. Dado que las respuestas generadas por estos modelos suelen incluir razonamientos complejos, pasos intermedios y autorreflexión, los métodos de evaluación existentes a menudo resultan insuficientes. Les cuesta determinar si la salida del LLM es verdaderamente equivalente a la respuesta de referencia, y también tienen dificultades para identificar y extraer la respuesta final de respuestas largas y complejas. Para abordar este problema, proponemos xVerify, un verificador de respuestas eficiente para la evaluación de modelos de razonamiento. xVerify demuestra una gran capacidad en el juicio de equivalencia, permitiéndole determinar de manera efectiva si las respuestas producidas por los modelos de razonamiento son equivalentes a las respuestas de referencia en diversos tipos de preguntas objetivas. Para entrenar y evaluar xVerify, construimos el conjunto de datos VAR recopilando pares de preguntas y respuestas generados por múltiples LLMs en varios conjuntos de datos, aprovechando múltiples modelos de razonamiento y conjuntos de evaluación desafiantes diseñados específicamente para la evaluación de modelos de razonamiento. Se emplea un proceso de anotación de múltiples rondas para garantizar la precisión de las etiquetas. Basándonos en el conjunto de datos VAR, entrenamos múltiples modelos xVerify de diferentes escalas. En experimentos de evaluación realizados tanto en el conjunto de prueba como en el conjunto de generalización, todos los modelos xVerify logran puntajes F1 y precisión general superiores al 95%. Destacablemente, la variante más pequeña, xVerify-0.5B-I, supera a todos los métodos de evaluación excepto GPT-4o, mientras que xVerify-3B-Ib supera a GPT-4o en rendimiento general. Estos resultados validan la efectividad y generalización de xVerify.
English
With the release of the o1 model by OpenAI, reasoning models adopting slow
thinking strategies have gradually emerged. As the responses generated by such
models often include complex reasoning, intermediate steps, and
self-reflection, existing evaluation methods are often inadequate. They
struggle to determine whether the LLM output is truly equivalent to the
reference answer, and also have difficulty identifying and extracting the final
answer from long, complex responses. To address this issue, we propose xVerify,
an efficient answer verifier for reasoning model evaluations. xVerify
demonstrates strong capability in equivalence judgment, enabling it to
effectively determine whether the answers produced by reasoning models are
equivalent to reference answers across various types of objective questions. To
train and evaluate xVerify, we construct the VAR dataset by collecting
question-answer pairs generated by multiple LLMs across various datasets,
leveraging multiple reasoning models and challenging evaluation sets designed
specifically for reasoning model assessment. A multi-round annotation process
is employed to ensure label accuracy. Based on the VAR dataset, we train
multiple xVerify models of different scales. In evaluation experiments
conducted on both the test set and generalization set, all xVerify models
achieve overall F1 scores and accuracy exceeding 95\%. Notably, the smallest
variant, xVerify-0.5B-I, outperforms all evaluation methods except GPT-4o,
while xVerify-3B-Ib surpasses GPT-4o in overall performance. These results
validate the effectiveness and generalizability of xVerify.Summary
AI-Generated Summary