ChatPaper.aiChatPaper

프로세스 마이닝을 활용한 추론 인식 GRPO

Reasoning-Aware GRPO using Process Mining

October 29, 2025
저자: Taekhyun Park, Yongjae Lee, Hyerim Bae
cs.AI

초록

강화학습(RL) 기반 사후 훈련은 대규모 추론 모델(LRM)에서 다단계 추론을 가능하게 하는 데 핵심적인 역할을 해왔으나, 현재의 보상 체계는 일반적으로 결과 중심으로 설계되어 있습니다. 본 논문에서는 추론 과정을 고려한 Group Relative Policy Optimization(GRPO) 기법인 PM4GRPO를 제안합니다. 이는 기존의 정답/형식 보상에 추론 절차에 대한 신호를 추가합니다. 이를 위해 프로세스 마이닝 기법을 활용하여 정책 모델의 추론이 사전 훈련된 교사 모델과 얼마나 일치하는지를 측정하는 스칼라 적합도 보상을 계산합니다. 5개 벤치마크에서의 실험 결과는 PM4GRPO가 GRPO 기반 사후 훈련을 위한 기존 방법론을 크게 능가함을 보여줍니다. 이러한 결과는 추론 인식 GRPO에 프로세스 마이닝을 활용하는 것이 정책 모델의 추론 능력을 효과적으로 향상시킨다는 점을 입증합니다.
English
Reinforcement learning (RL)-based post-training has been crucial for enabling multi-step reasoning in large reasoning models (LRMs), yet current reward schemes are typically outcome-centric. We propose PM4GRPO, a reasoning-aware Group Relative Policy Optimization (GRPO) that augments standard answer/format rewards with signals over the reasoning procedure. To this end, process mining techniques are utilized to compute a scalar conformance reward that measures how closely a policy model's reasoning aligns with the pretrained teacher model. The empirical results on five benchmarks demonstrate that PM4GRPO significantly outperforms existing methodologies for GRPO-based post-training. These results highlight that leveraging process mining for reasoning-aware GRPO effectively enhances the reasoning capabilities of policy models.
PDF411December 2, 2025