Valutatori Automatici Fondamentali: Scalabilità dell'Addestramento di Valutatori Generativi Multi-Task per Domini Centrati sul Ragionamento
Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains
October 20, 2025
Autori: Austin Xu, Xuan-Phi Nguyen, Yilun Zhou, Chien-Sheng Wu, Caiming Xiong, Shafiq Joty
cs.AI
Abstract
Il fine-tuning di valutatori generativi specializzati è emerso come un paradigma popolare per soddisfare la crescente domanda di valutazione scalabile sia durante l'addestramento che in fase di test. Tuttavia, i lavori recenti si sono concentrati principalmente sull'applicazione di nuove metodologie, come l'apprendimento per rinforzo (RL), per l'addestramento dei valutatori, evitando uno sviluppo su larga scala e basato sui dati. In questo lavoro, ci concentriamo sulla scalabilità dei dati, curando un set di 2,5 milioni di campioni che coprono cinque compiti di valutazione unici (confronto a coppie, valutazione a livello di passaggio, verifica senza riferimento e con riferimento, e valutazione singola) e più domini focalizzati sulla valutazione del ragionamento. Con i nostri dati, addestriamo i Foundational Automatic Reasoning Evaluators (FARE), una famiglia di valutatori con 8 miliardi e 20 miliardi di parametri (di cui 3,6 miliardi attivi), utilizzando un semplice approccio di fine-tuning supervisionato con campionamento di rifiuto iterativo (SFT). FARE-8B sfida valutatori specializzati più grandi addestrati con RL, mentre FARE-20B stabilisce il nuovo standard per i valutatori open-source, superando valutatori specializzati con oltre 70 miliardi di parametri. Oltre ai benchmark statici, valutiamo FARE in compiti del mondo reale: come riordinatore durante l'inferenza, FARE-20B raggiunge prestazioni quasi oracolari su MATH. Come verificatori nell'addestramento RL, FARE migliora le prestazioni del modello addestrato con RL fino al 14,1% rispetto ai verificatori basati su corrispondenza di stringhe. Quando inizializzato da FARE, un FARE-Code sottoposto a fine-tuning continuo supera gpt-oss-20B del 65% nella valutazione della qualità dei casi di test.
English
Finetuning specialized generative evaluators has emerged as a popular
paradigm to meet the increasing demand for scalable evaluation during both
training and test-time. However, recent work has largely focused on applying
new methodology, such as reinforcement learning (RL), to training evaluators,
shying away from large-scale, data-driven development. In this work, we focus
on data scaling, curating a set of 2.5M samples spanning five unique evaluation
tasks (pairwise, step-level, reference-free and reference-based verification,
and single rating) and multiple domains focused on reasoning evaluation. With
our data, we train Foundational Automatic Reasoning Evaluators (FARE), a family
of 8B and 20B (with 3.6B active) parameter evaluators, with a simple iterative
rejection-sampling supervised finetuning (SFT) approach. FARE-8B challenges
larger specialized RL-trained evaluators and FARE-20B sets the new standard for
open-source evaluators, surpassing specialized 70B+ evaluators. Beyond static
benchmarks, we evaluate FARE in real-world tasks: As inference-time rerankers,
FARE-20B achieves near-oracle performance on MATH. As verifiers in RL training,
FARE improves the downstream RL-trained model performance by up to 14.1% vs.
string-matching verifiers. When initialized from FARE, a continually-finetuned
FARE-Code outperforms gpt-oss-20B by 65% on evaluating test-case quality.