ChatPaper.aiChatPaper

Effizientes Training von Prozess-Belohnungsmodellen durch aktives Lernen

Efficient Process Reward Model Training via Active Learning

April 14, 2025
Autoren: Keyu Duan, Zichen Liu, Xin Mao, Tianyu Pang, Changyu Chen, Qiguang Chen, Michael Qizhe Shieh, Longxu Dou
cs.AI

Zusammenfassung

Process Reward Models (PRMs) bieten schrittweise Überwachung für große Sprachmodelle (LLMs), doch die Skalierung der Annotation von Trainingsdaten bleibt sowohl für Menschen als auch für LLMs eine Herausforderung. Um diese Einschränkung zu überwinden, schlagen wir einen aktiven Lernansatz vor, ActPRM, der proaktiv die unsichersten Samples für das Training auswählt und so die Labeling-Kosten erheblich reduziert. Während des Trainings verwenden wir das PRM, um die Unsicherheit nach dem Forward-Pass zu schätzen und behalten nur hochgradig unsichere Daten bei. Ein leistungsfähiges, aber kostspieliges Reasoning-Modell labelt dann diese Daten. Anschließend berechnen wir den Verlust in Bezug auf die Labels und aktualisieren die Gewichte des PRMs. Wir vergleichen ActPRM mit dem herkömmlichen Fine-Tuning in einem Pool-basierten aktiven Lernsetting und zeigen, dass ActPRM 50 % der Annotationen reduziert, dabei aber vergleichbare oder sogar bessere Leistungen erzielt. Über die Effizienz der Annotation hinaus verbessern wir das aktiv trainierte PRM weiter, indem wir über 1M+ mathematische Reasoning-Trajektorien mit ActPRM filtern und 60 % der Daten behalten. Ein anschließendes Training auf diesem ausgewählten Datensatz führt zu einem neuen State-of-the-Art (SOTA) PRM auf ProcessBench (75,0 %) und PRMBench (65,5 %) im Vergleich zu Modellen gleicher Größe.
English
Process Reward Models (PRMs) provide step-level supervision to large language models (LLMs), but scaling up training data annotation remains challenging for both humans and LLMs. To address this limitation, we propose an active learning approach, ActPRM, which proactively selects the most uncertain samples for training, substantially reducing labeling costs. During training, we use the PRM to estimate uncertainty after the forward pass, retaining only highly uncertain data. A capable yet costly reasoning model then labels this data. Then we compute the loss with respect to the labels and update the PRM's weights. We compare ActPRM vs. vanilla fine-tuning, on a pool-based active learning setting, demonstrating that ActPRM reduces 50% annotation, but achieving the comparable or even better performance. Beyond annotation efficiency, we further advance the actively trained PRM by filtering over 1M+ math reasoning trajectories with ActPRM, retaining 60% of the data. A subsequent training on this selected dataset yields a new state-of-the-art (SOTA) PRM on ProcessBench (75.0%) and PRMBench (65.5%) compared with same sized models.

Summary

AI-Generated Summary

PDF132April 16, 2025