xVerify: Эффективный верификатор ответов для оценки моделей логического рассуждения
xVerify: Efficient Answer Verifier for Reasoning Model Evaluations
April 14, 2025
Авторы: Ding Chen, Qingchen Yu, Pengyuan Wang, Wentao Zhang, Bo Tang, Feiyu Xiong, Xinchi Li, Minchuan Yang, Zhiyu Li
cs.AI
Аннотация
С выходом модели o1 от OpenAI постепенно начали появляться модели рассуждений, использующие стратегии медленного мышления. Поскольку ответы, генерируемые такими моделями, часто включают сложные рассуждения, промежуточные шаги и саморефлексию, существующие методы оценки оказываются недостаточными. Они с трудом определяют, действительно ли вывод языковой модели эквивалентен эталонному ответу, а также испытывают сложности с идентификацией и извлечением итогового ответа из длинных и сложных ответов. Для решения этой проблемы мы предлагаем xVerify — эффективный верификатор ответов для оценки моделей рассуждений. xVerify демонстрирует высокую способность к суждению об эквивалентности, что позволяет ему эффективно определять, эквивалентны ли ответы, сгенерированные моделями рассуждений, эталонным ответам для различных типов объективных вопросов. Для обучения и оценки xVerify мы создаем набор данных VAR, собирая пары вопрос-ответ, сгенерированные несколькими языковыми моделями на различных наборах данных, используя несколько моделей рассуждений и сложные наборы для оценки, специально разработанные для тестирования моделей рассуждений. Многоэтапный процесс аннотирования применяется для обеспечения точности меток. На основе набора данных VAR мы обучаем несколько моделей xVerify разного масштаба. В экспериментах по оценке, проведенных на тестовом и обобщающем наборах, все модели xVerify достигают общего показателя F1 и точности выше 95%. Примечательно, что самая маленькая версия, xVerify-0.5B-I, превосходит все методы оценки, кроме GPT-4o, в то время как xVerify-3B-Ib превосходит GPT-4o по общим показателям. Эти результаты подтверждают эффективность и универсальность xVerify.
English
With the release of the o1 model by OpenAI, reasoning models adopting slow
thinking strategies have gradually emerged. As the responses generated by such
models often include complex reasoning, intermediate steps, and
self-reflection, existing evaluation methods are often inadequate. They
struggle to determine whether the LLM output is truly equivalent to the
reference answer, and also have difficulty identifying and extracting the final
answer from long, complex responses. To address this issue, we propose xVerify,
an efficient answer verifier for reasoning model evaluations. xVerify
demonstrates strong capability in equivalence judgment, enabling it to
effectively determine whether the answers produced by reasoning models are
equivalent to reference answers across various types of objective questions. To
train and evaluate xVerify, we construct the VAR dataset by collecting
question-answer pairs generated by multiple LLMs across various datasets,
leveraging multiple reasoning models and challenging evaluation sets designed
specifically for reasoning model assessment. A multi-round annotation process
is employed to ensure label accuracy. Based on the VAR dataset, we train
multiple xVerify models of different scales. In evaluation experiments
conducted on both the test set and generalization set, all xVerify models
achieve overall F1 scores and accuracy exceeding 95\%. Notably, the smallest
variant, xVerify-0.5B-I, outperforms all evaluation methods except GPT-4o,
while xVerify-3B-Ib surpasses GPT-4o in overall performance. These results
validate the effectiveness and generalizability of xVerify.Summary
AI-Generated Summary