Grundlegende automatische Bewertungssysteme: Skalierung des Trainings von Multi-Task-Generativen Bewertungssystemen für reasoning-zentrierte Domänen
Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains
October 20, 2025
papers.authors: Austin Xu, Xuan-Phi Nguyen, Yilun Zhou, Chien-Sheng Wu, Caiming Xiong, Shafiq Joty
cs.AI
papers.abstract
Das Feinabstimmen spezialisierter generativer Evaluatoren hat sich als beliebtes Paradigma etabliert, um der wachsenden Nachfrage nach skalierbarer Bewertung sowohl während des Trainings als auch zur Testzeit gerecht zu werden. Jüngste Arbeiten haben sich jedoch weitgehend auf die Anwendung neuer Methoden, wie Reinforcement Learning (RL), zur Schulung von Evaluatoren konzentriert, wobei groß angelegte, datengetriebene Entwicklungen vernachlässigt wurden. In dieser Arbeit legen wir den Schwerpunkt auf die Skalierung von Daten und kuratieren einen Datensatz von 2,5 Millionen Proben, der fünf einzigartige Bewertungsaufgaben (paarweise, schrittweise, referenzfreie und referenzbasierte Verifikation sowie Einzelbewertung) und mehrere Domänen mit Fokus auf die Bewertung von Schlussfolgerungen umfasst. Mit unseren Daten trainieren wir Foundational Automatic Reasoning Evaluators (FARE), eine Familie von Evaluatoren mit 8 Milliarden und 20 Milliarden Parametern (davon 3,6 Milliarden aktiv), unter Verwendung eines einfachen iterativen Ablehnungs-Sampling-Ansatzes für überwachtes Feinabstimmen (SFT). FARE-8B stellt größere, spezialisierte RL-trainierte Evaluatoren in Frage, und FARE-20B setzt einen neuen Standard für Open-Source-Evaluatoren, indem es spezialisierte Evaluatoren mit über 70 Milliarden Parametern übertrifft. Über statische Benchmarks hinaus bewerten wir FARE in realen Aufgaben: Als Reranker zur Inferenzzeit erreicht FARE-20B nahezu orakelgleiche Leistung auf MATH. Als Verifikatoren im RL-Training verbessert FARE die Leistung des nachgeschalteten RL-trainierten Modells um bis zu 14,1 % im Vergleich zu String-Matching-Verifikatoren. Wenn FARE als Ausgangspunkt verwendet wird, übertrifft ein kontinuierlich feinabgestimmter FARE-Code gpt-oss-20B um 65 % bei der Bewertung der Testfallqualität.
English
Finetuning specialized generative evaluators has emerged as a popular
paradigm to meet the increasing demand for scalable evaluation during both
training and test-time. However, recent work has largely focused on applying
new methodology, such as reinforcement learning (RL), to training evaluators,
shying away from large-scale, data-driven development. In this work, we focus
on data scaling, curating a set of 2.5M samples spanning five unique evaluation
tasks (pairwise, step-level, reference-free and reference-based verification,
and single rating) and multiple domains focused on reasoning evaluation. With
our data, we train Foundational Automatic Reasoning Evaluators (FARE), a family
of 8B and 20B (with 3.6B active) parameter evaluators, with a simple iterative
rejection-sampling supervised finetuning (SFT) approach. FARE-8B challenges
larger specialized RL-trained evaluators and FARE-20B sets the new standard for
open-source evaluators, surpassing specialized 70B+ evaluators. Beyond static
benchmarks, we evaluate FARE in real-world tasks: As inference-time rerankers,
FARE-20B achieves near-oracle performance on MATH. As verifiers in RL training,
FARE improves the downstream RL-trained model performance by up to 14.1% vs.
string-matching verifiers. When initialized from FARE, a continually-finetuned
FARE-Code outperforms gpt-oss-20B by 65% on evaluating test-case quality.