xVerify: Verificador de Respostas Eficiente para Avaliações de Modelos de Raciocínio
xVerify: Efficient Answer Verifier for Reasoning Model Evaluations
April 14, 2025
Autores: Ding Chen, Qingchen Yu, Pengyuan Wang, Wentao Zhang, Bo Tang, Feiyu Xiong, Xinchi Li, Minchuan Yang, Zhiyu Li
cs.AI
Resumo
Com o lançamento do modelo o1 pela OpenAI, modelos de raciocínio que adotam estratégias de pensamento lento têm surgido gradualmente. Como as respostas geradas por esses modelos frequentemente incluem raciocínios complexos, etapas intermediárias e autorreflexão, os métodos de avaliação existentes muitas vezes se mostram inadequados. Eles têm dificuldade em determinar se a saída do LLM é verdadeiramente equivalente à resposta de referência e também enfrentam desafios para identificar e extrair a resposta final de respostas longas e complexas. Para resolver esse problema, propomos o xVerify, um verificador de respostas eficiente para avaliações de modelos de raciocínio. O xVerify demonstra uma forte capacidade de julgamento de equivalência, permitindo determinar de forma eficaz se as respostas produzidas por modelos de raciocínio são equivalentes às respostas de referência em diversos tipos de questões objetivas. Para treinar e avaliar o xVerify, construímos o conjunto de dados VAR, coletando pares de perguntas e respostas gerados por múltiplos LLMs em diversos conjuntos de dados, utilizando vários modelos de raciocínio e conjuntos de avaliação desafiadores projetados especificamente para a avaliação de modelos de raciocínio. Um processo de anotação em múltiplas rodadas é empregado para garantir a precisão dos rótulos. Com base no conjunto de dados VAR, treinamos vários modelos xVerify de diferentes escalas. Em experimentos de avaliação realizados tanto no conjunto de teste quanto no conjunto de generalização, todos os modelos xVerify alcançaram pontuações F1 e acurácia superiores a 95%. Notavelmente, a menor variante, xVerify-0.5B-I, supera todos os métodos de avaliação, exceto o GPT-4o, enquanto o xVerify-3B-Ib supera o GPT-4o em desempenho geral. Esses resultados validam a eficácia e a generalizabilidade do xVerify.
English
With the release of the o1 model by OpenAI, reasoning models adopting slow
thinking strategies have gradually emerged. As the responses generated by such
models often include complex reasoning, intermediate steps, and
self-reflection, existing evaluation methods are often inadequate. They
struggle to determine whether the LLM output is truly equivalent to the
reference answer, and also have difficulty identifying and extracting the final
answer from long, complex responses. To address this issue, we propose xVerify,
an efficient answer verifier for reasoning model evaluations. xVerify
demonstrates strong capability in equivalence judgment, enabling it to
effectively determine whether the answers produced by reasoning models are
equivalent to reference answers across various types of objective questions. To
train and evaluate xVerify, we construct the VAR dataset by collecting
question-answer pairs generated by multiple LLMs across various datasets,
leveraging multiple reasoning models and challenging evaluation sets designed
specifically for reasoning model assessment. A multi-round annotation process
is employed to ensure label accuracy. Based on the VAR dataset, we train
multiple xVerify models of different scales. In evaluation experiments
conducted on both the test set and generalization set, all xVerify models
achieve overall F1 scores and accuracy exceeding 95\%. Notably, the smallest
variant, xVerify-0.5B-I, outperforms all evaluation methods except GPT-4o,
while xVerify-3B-Ib surpasses GPT-4o in overall performance. These results
validate the effectiveness and generalizability of xVerify.Summary
AI-Generated Summary