xVerify: Эффективный верификатор ответов для оценки моделей логического рассужденияxVerify: Efficient Answer Verifier for Reasoning Model Evaluations
С выходом модели o1 от OpenAI постепенно начали появляться модели рассуждений, использующие стратегии медленного мышления. Поскольку ответы, генерируемые такими моделями, часто включают сложные рассуждения, промежуточные шаги и саморефлексию, существующие методы оценки оказываются недостаточными. Они с трудом определяют, действительно ли вывод языковой модели эквивалентен эталонному ответу, а также испытывают сложности с идентификацией и извлечением итогового ответа из длинных и сложных ответов. Для решения этой проблемы мы предлагаем xVerify — эффективный верификатор ответов для оценки моделей рассуждений. xVerify демонстрирует высокую способность к суждению об эквивалентности, что позволяет ему эффективно определять, эквивалентны ли ответы, сгенерированные моделями рассуждений, эталонным ответам для различных типов объективных вопросов. Для обучения и оценки xVerify мы создаем набор данных VAR, собирая пары вопрос-ответ, сгенерированные несколькими языковыми моделями на различных наборах данных, используя несколько моделей рассуждений и сложные наборы для оценки, специально разработанные для тестирования моделей рассуждений. Многоэтапный процесс аннотирования применяется для обеспечения точности меток. На основе набора данных VAR мы обучаем несколько моделей xVerify разного масштаба. В экспериментах по оценке, проведенных на тестовом и обобщающем наборах, все модели xVerify достигают общего показателя F1 и точности выше 95%. Примечательно, что самая маленькая версия, xVerify-0.5B-I, превосходит все методы оценки, кроме GPT-4o, в то время как xVerify-3B-Ib превосходит GPT-4o по общим показателям. Эти результаты подтверждают эффективность и универсальность xVerify.