ChatPaper.aiChatPaper

Фундаментальные автоматические системы оценки: масштабирование обучения многозадачных генеративных оценщиков для областей, ориентированных на рассуждения

Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains

October 20, 2025
Авторы: Austin Xu, Xuan-Phi Nguyen, Yilun Zhou, Chien-Sheng Wu, Caiming Xiong, Shafiq Joty
cs.AI

Аннотация

Тонкая настройка специализированных генеративных оценщиков стала популярной парадигмой для удовлетворения растущего спроса на масштабируемую оценку как во время обучения, так и на этапе тестирования. Однако в последних работах основное внимание уделялось применению новых методологий, таких как обучение с подкреплением (RL), для тренировки оценщиков, избегая крупномасштабной разработки, основанной на данных. В данной работе мы сосредоточились на масштабировании данных, собрав набор из 2,5 миллионов образцов, охватывающих пять уникальных задач оценки (попарное сравнение, пошаговая оценка, проверка без эталона и с эталоном, а также единичная оценка) и несколько областей, связанных с оценкой рассуждений. Используя наши данные, мы обучили семейство Foundational Automatic Reasoning Evaluators (FARE) — оценщиков с 8 миллиардами и 20 миллиардами параметров (с активными 3,6 миллиардами), применяя простой итеративный подход тонкой настройки с использованием метода отбора с отклонением (SFT). FARE-8B конкурирует с более крупными специализированными оценщиками, обученными с помощью RL, а FARE-20B устанавливает новый стандарт для открытых оценщиков, превосходя специализированные модели с 70+ миллиардами параметров. Помимо статических бенчмарков, мы оценили FARE в реальных задачах: в качестве ранкеров на этапе вывода FARE-20B достигает почти оптимальной производительности на наборе данных MATH. В качестве верификаторов в обучении с подкреплением FARE улучшает производительность модели, обученной с помощью RL, на 14,1% по сравнению с верификаторами, основанными на сопоставлении строк. При инициализации на основе FARE, постоянно донастраиваемый FARE-Code превосходит gpt-oss-20B на 65% в оценке качества тестовых случаев.
English
Finetuning specialized generative evaluators has emerged as a popular paradigm to meet the increasing demand for scalable evaluation during both training and test-time. However, recent work has largely focused on applying new methodology, such as reinforcement learning (RL), to training evaluators, shying away from large-scale, data-driven development. In this work, we focus on data scaling, curating a set of 2.5M samples spanning five unique evaluation tasks (pairwise, step-level, reference-free and reference-based verification, and single rating) and multiple domains focused on reasoning evaluation. With our data, we train Foundational Automatic Reasoning Evaluators (FARE), a family of 8B and 20B (with 3.6B active) parameter evaluators, with a simple iterative rejection-sampling supervised finetuning (SFT) approach. FARE-8B challenges larger specialized RL-trained evaluators and FARE-20B sets the new standard for open-source evaluators, surpassing specialized 70B+ evaluators. Beyond static benchmarks, we evaluate FARE in real-world tasks: As inference-time rerankers, FARE-20B achieves near-oracle performance on MATH. As verifiers in RL training, FARE improves the downstream RL-trained model performance by up to 14.1% vs. string-matching verifiers. When initialized from FARE, a continually-finetuned FARE-Code outperforms gpt-oss-20B by 65% on evaluating test-case quality.
PDF22October 21, 2025