ChatPaper.aiChatPaper

能動的学習による効率的なプロセス報酬モデルの訓練

Efficient Process Reward Model Training via Active Learning

April 14, 2025
著者: Keyu Duan, Zichen Liu, Xin Mao, Tianyu Pang, Changyu Chen, Qiguang Chen, Michael Qizhe Shieh, Longxu Dou
cs.AI

要旨

プロセス報酬モデル(PRM)は大規模言語モデル(LLM)にステップレベルの監視を提供しますが、トレーニングデータのアノテーションをスケールアップすることは、人間にとってもLLMにとっても依然として課題です。この制約に対処するため、我々は能動学習アプローチであるActPRMを提案します。これは、最も不確実なサンプルを積極的に選択してトレーニングを行うことで、ラベリングコストを大幅に削減します。トレーニング中、我々はPRMを使用してフォワードパスの後に不確実性を推定し、高度に不確実なデータのみを保持します。その後、能力は高いがコストのかかる推論モデルがこのデータにラベルを付けます。次に、ラベルに対する損失を計算し、PRMの重みを更新します。我々はActPRMとバニラのファインチューニングをプールベースの能動学習設定で比較し、ActPRMがアノテーションを50%削減しながら、同等またはそれ以上の性能を達成することを示します。アノテーション効率を超えて、我々はActPRMを使用して100万以上の数学的推論軌跡をフィルタリングし、データの60%を保持することで、積極的にトレーニングされたPRMをさらに進化させます。この選択されたデータセットでのその後のトレーニングにより、ProcessBench(75.0%)とPRMBench(65.5%)において、同じサイズのモデルと比較して新たな最先端(SOTA)PRMが得られます。
English
Process Reward Models (PRMs) provide step-level supervision to large language models (LLMs), but scaling up training data annotation remains challenging for both humans and LLMs. To address this limitation, we propose an active learning approach, ActPRM, which proactively selects the most uncertain samples for training, substantially reducing labeling costs. During training, we use the PRM to estimate uncertainty after the forward pass, retaining only highly uncertain data. A capable yet costly reasoning model then labels this data. Then we compute the loss with respect to the labels and update the PRM's weights. We compare ActPRM vs. vanilla fine-tuning, on a pool-based active learning setting, demonstrating that ActPRM reduces 50% annotation, but achieving the comparable or even better performance. Beyond annotation efficiency, we further advance the actively trained PRM by filtering over 1M+ math reasoning trajectories with ActPRM, retaining 60% of the data. A subsequent training on this selected dataset yields a new state-of-the-art (SOTA) PRM on ProcessBench (75.0%) and PRMBench (65.5%) compared with same sized models.

Summary

AI-Generated Summary

PDF132April 16, 2025