Эффективное обучение модели вознаграждения процессов с использованием активного обучения
Efficient Process Reward Model Training via Active Learning
April 14, 2025
Авторы: Keyu Duan, Zichen Liu, Xin Mao, Tianyu Pang, Changyu Chen, Qiguang Chen, Michael Qizhe Shieh, Longxu Dou
cs.AI
Аннотация
Модели поощрения процессов (PRM) обеспечивают пошаговый контроль для больших языковых моделей (LLM), однако масштабирование аннотирования обучающих данных остается сложной задачей как для людей, так и для LLM. Чтобы устранить это ограничение, мы предлагаем подход активного обучения ActPRM, который активно выбирает наиболее неопределенные образцы для обучения, существенно снижая затраты на разметку. В процессе обучения мы используем PRM для оценки неопределенности после прямого прохода, сохраняя только данные с высокой неопределенностью. Затем мощная, но дорогостоящая модель рассуждений размечает эти данные. После этого мы вычисляем потери относительно меток и обновляем веса PRM. Мы сравниваем ActPRM с базовой тонкой настройкой в условиях активного обучения на основе пула данных, демонстрируя, что ActPRM сокращает объем аннотирования на 50%, при этом достигая сопоставимой или даже лучшей производительности. Помимо эффективности аннотирования, мы дополнительно улучшаем активно обученную PRM, фильтруя более 1 миллиона траекторий математических рассуждений с помощью ActPRM, сохраняя 60% данных. Последующее обучение на этом отобранном наборе данных приводит к созданию новой PRM, устанавливающей новый рекорд (SOTA) на ProcessBench (75.0%) и PRMBench (65.5%) по сравнению с моделями аналогичного размера.
English
Process Reward Models (PRMs) provide step-level supervision to large language
models (LLMs), but scaling up training data annotation remains challenging for
both humans and LLMs. To address this limitation, we propose an active learning
approach, ActPRM, which proactively selects the most uncertain samples for
training, substantially reducing labeling costs. During training, we use the
PRM to estimate uncertainty after the forward pass, retaining only highly
uncertain data. A capable yet costly reasoning model then labels this data.
Then we compute the loss with respect to the labels and update the PRM's
weights. We compare ActPRM vs. vanilla fine-tuning, on a pool-based active
learning setting, demonstrating that ActPRM reduces 50% annotation, but
achieving the comparable or even better performance. Beyond annotation
efficiency, we further advance the actively trained PRM by filtering over 1M+
math reasoning trajectories with ActPRM, retaining 60% of the data. A
subsequent training on this selected dataset yields a new state-of-the-art
(SOTA) PRM on ProcessBench (75.0%) and PRMBench (65.5%) compared with same
sized models.Summary
AI-Generated Summary