Fundamentele Automatische Evaluatoren: Schaalbaarheid van Multi-Task Generatieve Evaluator Training voor Redeneergerichte Domeinen
Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains
October 20, 2025
Auteurs: Austin Xu, Xuan-Phi Nguyen, Yilun Zhou, Chien-Sheng Wu, Caiming Xiong, Shafiq Joty
cs.AI
Samenvatting
Het finetunen van gespecialiseerde generatieve evaluatoren is een populair paradigma geworden om te voldoen aan de toenemende vraag naar schaalbare evaluatie tijdens zowel training als testtijd. Recent werk heeft zich echter vooral gericht op het toepassen van nieuwe methodologieën, zoals reinforcement learning (RL), voor het trainen van evaluatoren, terwijl grootschalige, data-gedreven ontwikkeling werd vermeden. In dit werk richten we ons op data-schaling en cureren we een set van 2,5 miljoen samples die vijf unieke evaluatietaken omvatten (paarsgewijs, stapniveau, referentievrije en referentiegebaseerde verificatie, en enkele beoordeling) en meerdere domeinen gericht op redeneerevaluatie. Met onze data trainen we Foundational Automatic Reasoning Evaluators (FARE), een familie van evaluatoren met 8B en 20B (waarvan 3,6B actief) parameters, met een eenvoudige iteratieve rejection-sampling supervised finetuning (SFT) aanpak. FARE-8B daagt grotere gespecialiseerde RL-getrainde evaluatoren uit en FARE-20B zet een nieuwe standaard voor open-source evaluatoren, waarbij gespecialiseerde 70B+ evaluatoren worden overtroffen. Naast statische benchmarks evalueren we FARE in real-world taken: Als inference-time rerankers bereikt FARE-20B bijna-orakelprestaties op MATH. Als verificatoren in RL-training verbetert FARE de prestaties van het downstream RL-getrainde model met tot 14,1% ten opzichte van string-matching verificatoren. Wanneer geïnitialiseerd vanuit FARE, presteert een continu gefinetunde FARE-Code 65% beter dan gpt-oss-20B bij het evalueren van testcase-kwaliteit.
English
Finetuning specialized generative evaluators has emerged as a popular
paradigm to meet the increasing demand for scalable evaluation during both
training and test-time. However, recent work has largely focused on applying
new methodology, such as reinforcement learning (RL), to training evaluators,
shying away from large-scale, data-driven development. In this work, we focus
on data scaling, curating a set of 2.5M samples spanning five unique evaluation
tasks (pairwise, step-level, reference-free and reference-based verification,
and single rating) and multiple domains focused on reasoning evaluation. With
our data, we train Foundational Automatic Reasoning Evaluators (FARE), a family
of 8B and 20B (with 3.6B active) parameter evaluators, with a simple iterative
rejection-sampling supervised finetuning (SFT) approach. FARE-8B challenges
larger specialized RL-trained evaluators and FARE-20B sets the new standard for
open-source evaluators, surpassing specialized 70B+ evaluators. Beyond static
benchmarks, we evaluate FARE in real-world tasks: As inference-time rerankers,
FARE-20B achieves near-oracle performance on MATH. As verifiers in RL training,
FARE improves the downstream RL-trained model performance by up to 14.1% vs.
string-matching verifiers. When initialized from FARE, a continually-finetuned
FARE-Code outperforms gpt-oss-20B by 65% on evaluating test-case quality.