Осознающий логику GRPO с использованием процессного моделирования
Reasoning-Aware GRPO using Process Mining
October 29, 2025
Авторы: Taekhyun Park, Yongjae Lee, Hyerim Bae
cs.AI
Аннотация
Обучение с подкреплением (RL) стало ключевым методом для обеспечения многошаговых рассуждений в больших моделях рассуждений (LRM), однако существующие схемы вознаграждения обычно ориентированы на результат. Мы предлагаем PM4GRPO — метод групповой относительной оптимизации политики (GRPO), учитывающий процесс рассуждений, который дополняет стандартные вознаграждения за ответ/формат сигналами, оценивающими процедуру рассуждений. Для этого используются методы Process Mining для вычисления скалярного вознаграждения соответствия, которое измеряет, насколько рассуждения политики модели соответствуют рассуждениям предобученной учительской модели. Экспериментальные результаты на пяти тестовых наборах данных демонстрируют, что PM4GRPO значительно превосходит существующие методики для GRPO-дообучения. Эти результаты подчеркивают, что использование Process Mining для GRPO, учитывающего процесс рассуждений, эффективно улучшает способности моделей политики к рассуждениям.
English
Reinforcement learning (RL)-based post-training has been crucial for enabling
multi-step reasoning in large reasoning models (LRMs), yet current reward
schemes are typically outcome-centric. We propose PM4GRPO, a reasoning-aware
Group Relative Policy Optimization (GRPO) that augments standard answer/format
rewards with signals over the reasoning procedure. To this end, process mining
techniques are utilized to compute a scalar conformance reward that measures
how closely a policy model's reasoning aligns with the pretrained teacher
model. The empirical results on five benchmarks demonstrate that PM4GRPO
significantly outperforms existing methodologies for GRPO-based post-training.
These results highlight that leveraging process mining for reasoning-aware GRPO
effectively enhances the reasoning capabilities of policy models.