기초 자동 평가자: 추론 중심 영역을 위한 다중 작업 생성 평가자 훈련의 확장
Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains
October 20, 2025
저자: Austin Xu, Xuan-Phi Nguyen, Yilun Zhou, Chien-Sheng Wu, Caiming Xiong, Shafiq Joty
cs.AI
초록
전문화된 생성 평가 모델의 미세 조정(finetuning)은 훈련 및 테스트 시점에서 확장 가능한 평가에 대한 증가하는 수요를 충족하기 위한 인기 있는 패러다임으로 부상했습니다. 그러나 최근 연구는 주로 강화 학습(RL)과 같은 새로운 방법론을 평가 모델 훈련에 적용하는 데 초점을 맞추며, 대규모 데이터 기반 개발을 피해왔습니다. 본 연구에서는 데이터 확장에 주목하여, 5가지 고유한 평가 작업(쌍별 비교, 단계별 평가, 참조 없는 및 참조 기반 검증, 단일 평점)과 추론 평가에 초점을 맞춘 여러 도메인에 걸친 250만 개의 샘플을 큐레이팅했습니다. 이 데이터를 바탕으로, 우리는 단순한 반복적 거부 샘플링 지도 미세 조정(SFT) 접근법을 사용하여 80억(8B) 및 200억(20B, 활성 36억) 파라미터 평가 모델군인 Foundational Automatic Reasoning Evaluators(FARE)를 훈련시켰습니다. FARE-8B는 더 큰 규모의 RL 훈련 평가 모델에 도전하며, FARE-20B는 오픈소스 평가 모델의 새로운 기준을 세워 700억 이상의 전문화된 평가 모델을 능가했습니다. 정적 벤치마크를 넘어, 우리는 FARE를 실제 작업에서 평가했습니다: 추론 시 리랭커로 사용될 때, FARE-20B는 MATH에서 거의 오라클 수준의 성능을 달성했습니다. RL 훈련에서 검증기로 사용될 때, FARE는 문자열 매칭 검증기 대비 최대 14.1%까지 하류 RL 훈련 모델의 성능을 향상시켰습니다. FARE에서 초기화된 지속적으로 미세 조정된 FARE-Code는 테스트 케이스 품질 평가에서 gpt-oss-20B를 65% 앞섰습니다.
English
Finetuning specialized generative evaluators has emerged as a popular
paradigm to meet the increasing demand for scalable evaluation during both
training and test-time. However, recent work has largely focused on applying
new methodology, such as reinforcement learning (RL), to training evaluators,
shying away from large-scale, data-driven development. In this work, we focus
on data scaling, curating a set of 2.5M samples spanning five unique evaluation
tasks (pairwise, step-level, reference-free and reference-based verification,
and single rating) and multiple domains focused on reasoning evaluation. With
our data, we train Foundational Automatic Reasoning Evaluators (FARE), a family
of 8B and 20B (with 3.6B active) parameter evaluators, with a simple iterative
rejection-sampling supervised finetuning (SFT) approach. FARE-8B challenges
larger specialized RL-trained evaluators and FARE-20B sets the new standard for
open-source evaluators, surpassing specialized 70B+ evaluators. Beyond static
benchmarks, we evaluate FARE in real-world tasks: As inference-time rerankers,
FARE-20B achieves near-oracle performance on MATH. As verifiers in RL training,
FARE improves the downstream RL-trained model performance by up to 14.1% vs.
string-matching verifiers. When initialized from FARE, a continually-finetuned
FARE-Code outperforms gpt-oss-20B by 65% on evaluating test-case quality.