Efficiënte training van procesbeloningsmodellen via actief leren
Efficient Process Reward Model Training via Active Learning
April 14, 2025
Auteurs: Keyu Duan, Zichen Liu, Xin Mao, Tianyu Pang, Changyu Chen, Qiguang Chen, Michael Qizhe Shieh, Longxu Dou
cs.AI
Samenvatting
Process Reward Models (PRMs) bieden stap-voor-stap supervisie aan grote taalmodellen (LLMs), maar het opschalen van de annotatie van trainingsdata blijft een uitdaging voor zowel mensen als LLMs. Om deze beperking aan te pakken, stellen we een actief leren-benadering voor, ActPRM, die proactief de meest onzekere samples selecteert voor training, waardoor de labelkosten aanzienlijk worden verlaagd. Tijdens de training gebruiken we de PRM om onzekerheid te schatten na de forward pass, waarbij alleen zeer onzekere data behouden blijft. Een krachtig maar kostbaar redeneermodel labelt vervolgens deze data. Daarna berekenen we het verlies ten opzichte van de labels en updaten we de gewichten van de PRM. We vergelijken ActPRM met standaard fine-tuning in een pool-gebaseerde actief leren-setting, en laten zien dat ActPRM 50% van de annotatie reduceert, maar vergelijkbare of zelfs betere prestaties behaalt. Naast annotatie-efficiëntie, verbeteren we de actief getrainde PRM verder door meer dan 1M+ wiskundige redeneertrajecten te filteren met ActPRM, waarbij 60% van de data behouden blijft. Een daaropvolgende training op deze geselecteerde dataset resulteert in een nieuwe state-of-the-art (SOTA) PRM op ProcessBench (75.0%) en PRMBench (65.5%) vergeleken met modellen van dezelfde grootte.
English
Process Reward Models (PRMs) provide step-level supervision to large language
models (LLMs), but scaling up training data annotation remains challenging for
both humans and LLMs. To address this limitation, we propose an active learning
approach, ActPRM, which proactively selects the most uncertain samples for
training, substantially reducing labeling costs. During training, we use the
PRM to estimate uncertainty after the forward pass, retaining only highly
uncertain data. A capable yet costly reasoning model then labels this data.
Then we compute the loss with respect to the labels and update the PRM's
weights. We compare ActPRM vs. vanilla fine-tuning, on a pool-based active
learning setting, demonstrating that ActPRM reduces 50% annotation, but
achieving the comparable or even better performance. Beyond annotation
efficiency, we further advance the actively trained PRM by filtering over 1M+
math reasoning trajectories with ActPRM, retaining 60% of the data. A
subsequent training on this selected dataset yields a new state-of-the-art
(SOTA) PRM on ProcessBench (75.0%) and PRMBench (65.5%) compared with same
sized models.Summary
AI-Generated Summary