Évaluateurs Automatiques Fondamentaux : Mise à l'Échelle de la Formation d'Évaluateurs Génériques Multi-Tâches pour les Domaines Centrés sur le Raisonnement
Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains
October 20, 2025
papers.authors: Austin Xu, Xuan-Phi Nguyen, Yilun Zhou, Chien-Sheng Wu, Caiming Xiong, Shafiq Joty
cs.AI
papers.abstract
L'affinage d'évaluateurs génératifs spécialisés est devenu un paradigme populaire pour répondre à la demande croissante d'évaluation scalable pendant l'entraînement et au moment des tests. Cependant, les travaux récents se sont principalement concentrés sur l'application de nouvelles méthodologies, telles que l'apprentissage par renforcement (RL), à l'entraînement des évaluateurs, évitant le développement à grande échelle basé sur les données. Dans ce travail, nous nous concentrons sur la mise à l'échelle des données, en constituant un ensemble de 2,5 millions d'échantillons couvrant cinq tâches d'évaluation uniques (comparaison par paires, évaluation au niveau des étapes, vérification sans référence et basée sur des références, et notation unique) et plusieurs domaines axés sur l'évaluation du raisonnement. Avec nos données, nous entraînons les Foundational Automatic Reasoning Evaluators (FARE), une famille d'évaluateurs de 8 milliards et 20 milliards de paramètres (dont 3,6 milliards actifs), en utilisant une approche simple d'affinage supervisé par échantillonnage de rejet itératif (SFT). FARE-8B rivalise avec des évaluateurs spécialisés plus grands entraînés par RL, et FARE-20B établit une nouvelle norme pour les évaluateurs open-source, surpassant les évaluateurs spécialisés de plus de 70 milliards de paramètres. Au-delà des benchmarks statiques, nous évaluons FARE dans des tâches réelles : en tant que réorganisateurs au moment de l'inférence, FARE-20B atteint des performances quasi-oraculaires sur MATH. En tant que vérificateurs dans l'entraînement par RL, FARE améliore les performances du modèle entraîné par RL en aval jusqu'à 14,1 % par rapport aux vérificateurs basés sur la correspondance de chaînes. Lorsqu'il est initialisé à partir de FARE, un FARE-Code continuellement affiné surpasse gpt-oss-20B de 65 % dans l'évaluation de la qualité des cas de test.
English
Finetuning specialized generative evaluators has emerged as a popular
paradigm to meet the increasing demand for scalable evaluation during both
training and test-time. However, recent work has largely focused on applying
new methodology, such as reinforcement learning (RL), to training evaluators,
shying away from large-scale, data-driven development. In this work, we focus
on data scaling, curating a set of 2.5M samples spanning five unique evaluation
tasks (pairwise, step-level, reference-free and reference-based verification,
and single rating) and multiple domains focused on reasoning evaluation. With
our data, we train Foundational Automatic Reasoning Evaluators (FARE), a family
of 8B and 20B (with 3.6B active) parameter evaluators, with a simple iterative
rejection-sampling supervised finetuning (SFT) approach. FARE-8B challenges
larger specialized RL-trained evaluators and FARE-20B sets the new standard for
open-source evaluators, surpassing specialized 70B+ evaluators. Beyond static
benchmarks, we evaluate FARE in real-world tasks: As inference-time rerankers,
FARE-20B achieves near-oracle performance on MATH. As verifiers in RL training,
FARE improves the downstream RL-trained model performance by up to 14.1% vs.
string-matching verifiers. When initialized from FARE, a continually-finetuned
FARE-Code outperforms gpt-oss-20B by 65% on evaluating test-case quality.