Evaluadores Automáticos Fundamentales: Escalando el Entrenamiento de Evaluadores Generativos Multitarea para Dominios Centrados en el Razonamiento
Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains
October 20, 2025
Autores: Austin Xu, Xuan-Phi Nguyen, Yilun Zhou, Chien-Sheng Wu, Caiming Xiong, Shafiq Joty
cs.AI
Resumen
El ajuste fino de evaluadores generativos especializados ha surgido como un paradigma popular para satisfacer la creciente demanda de evaluación escalable tanto durante el entrenamiento como en el momento de prueba. Sin embargo, trabajos recientes se han centrado principalmente en aplicar nuevas metodologías, como el aprendizaje por refuerzo (RL), al entrenamiento de evaluadores, evitando el desarrollo a gran escala basado en datos. En este trabajo, nos enfocamos en la escalabilidad de datos, curando un conjunto de 2.5 millones de muestras que abarcan cinco tareas de evaluación únicas (comparación por pares, evaluación a nivel de paso, verificación sin referencia y basada en referencia, y calificación única) y múltiples dominios centrados en la evaluación del razonamiento. Con nuestros datos, entrenamos Evaluadores Automáticos de Razonamiento Fundamentales (FARE, por sus siglas en inglés), una familia de evaluadores con 8 mil millones y 20 mil millones de parámetros (con 3.6 mil millones activos), utilizando un enfoque simple de ajuste fino supervisado (SFT) con muestreo por rechazo iterativo. FARE-8B desafía a evaluadores especializados más grandes entrenados con RL, y FARE-20B establece un nuevo estándar para evaluadores de código abierto, superando a evaluadores especializados con más de 70 mil millones de parámetros. Más allá de los puntos de referencia estáticos, evaluamos FARE en tareas del mundo real: como reordenadores en tiempo de inferencia, FARE-20B alcanza un rendimiento cercano al oráculo en MATH. Como verificadores en el entrenamiento con RL, FARE mejora el rendimiento del modelo entrenado con RL en hasta un 14.1% en comparación con verificadores basados en coincidencia de cadenas. Cuando se inicializa a partir de FARE, un FARE-Code ajustado continuamente supera a gpt-oss-20B en un 65% en la evaluación de la calidad de los casos de prueba.
English
Finetuning specialized generative evaluators has emerged as a popular
paradigm to meet the increasing demand for scalable evaluation during both
training and test-time. However, recent work has largely focused on applying
new methodology, such as reinforcement learning (RL), to training evaluators,
shying away from large-scale, data-driven development. In this work, we focus
on data scaling, curating a set of 2.5M samples spanning five unique evaluation
tasks (pairwise, step-level, reference-free and reference-based verification,
and single rating) and multiple domains focused on reasoning evaluation. With
our data, we train Foundational Automatic Reasoning Evaluators (FARE), a family
of 8B and 20B (with 3.6B active) parameter evaluators, with a simple iterative
rejection-sampling supervised finetuning (SFT) approach. FARE-8B challenges
larger specialized RL-trained evaluators and FARE-20B sets the new standard for
open-source evaluators, surpassing specialized 70B+ evaluators. Beyond static
benchmarks, we evaluate FARE in real-world tasks: As inference-time rerankers,
FARE-20B achieves near-oracle performance on MATH. As verifiers in RL training,
FARE improves the downstream RL-trained model performance by up to 14.1% vs.
string-matching verifiers. When initialized from FARE, a continually-finetuned
FARE-Code outperforms gpt-oss-20B by 65% on evaluating test-case quality.