Avaliadores Automáticos Fundamentais: Escalonando o Treinamento de Avaliadores Multi-Tarefa para Domínios Centrados em Raciocínio
Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains
October 20, 2025
Autores: Austin Xu, Xuan-Phi Nguyen, Yilun Zhou, Chien-Sheng Wu, Caiming Xiong, Shafiq Joty
cs.AI
Resumo
O ajuste fino de avaliadores generativos especializados emergiu como um paradigma popular para atender à crescente demanda por avaliação escalável durante o treinamento e o tempo de teste. No entanto, trabalhos recentes têm se concentrado principalmente na aplicação de novas metodologias, como aprendizado por reforço (RL), ao treinamento de avaliadores, evitando o desenvolvimento em grande escala e orientado por dados. Neste trabalho, focamos na escalabilidade de dados, curando um conjunto de 2,5 milhões de amostras abrangendo cinco tarefas de avaliação únicas (comparação par a par, verificação em nível de etapa, verificação sem referência e com referência, e avaliação única) e múltiplos domínios focados na avaliação de raciocínio. Com nossos dados, treinamos os Avaliadores Automáticos de Raciocínio Fundamentais (FARE), uma família de avaliadores com 8 bilhões e 20 bilhões de parâmetros (com 3,6 bilhões ativos), utilizando uma abordagem simples de ajuste fino supervisionado com amostragem por rejeição iterativa (SFT). O FARE-8B desafia avaliadores especializados maiores treinados com RL, e o FARE-20B estabelece o novo padrão para avaliadores de código aberto, superando avaliadores especializados com mais de 70 bilhões de parâmetros. Além de benchmarks estáticos, avaliamos o FARE em tarefas do mundo real: como reordenadores em tempo de inferência, o FARE-20B alcança desempenho próximo ao de um oráculo no MATH. Como verificadores no treinamento com RL, o FARE melhora o desempenho do modelo treinado com RL em até 14,1% em comparação com verificadores baseados em correspondência de strings. Quando inicializado a partir do FARE, um FARE-Code continuamente ajustado supera o gpt-oss-20B em 65% na avaliação da qualidade dos casos de teste.
English
Finetuning specialized generative evaluators has emerged as a popular
paradigm to meet the increasing demand for scalable evaluation during both
training and test-time. However, recent work has largely focused on applying
new methodology, such as reinforcement learning (RL), to training evaluators,
shying away from large-scale, data-driven development. In this work, we focus
on data scaling, curating a set of 2.5M samples spanning five unique evaluation
tasks (pairwise, step-level, reference-free and reference-based verification,
and single rating) and multiple domains focused on reasoning evaluation. With
our data, we train Foundational Automatic Reasoning Evaluators (FARE), a family
of 8B and 20B (with 3.6B active) parameter evaluators, with a simple iterative
rejection-sampling supervised finetuning (SFT) approach. FARE-8B challenges
larger specialized RL-trained evaluators and FARE-20B sets the new standard for
open-source evaluators, surpassing specialized 70B+ evaluators. Beyond static
benchmarks, we evaluate FARE in real-world tasks: As inference-time rerankers,
FARE-20B achieves near-oracle performance on MATH. As verifiers in RL training,
FARE improves the downstream RL-trained model performance by up to 14.1% vs.
string-matching verifiers. When initialized from FARE, a continually-finetuned
FARE-Code outperforms gpt-oss-20B by 65% on evaluating test-case quality.