GRPO com Consciência do Raciocínio utilizando Mineração de Processos
Reasoning-Aware GRPO using Process Mining
October 29, 2025
Autores: Taekhyun Park, Yongjae Lee, Hyerim Bae
cs.AI
Resumo
O pós-treinamento baseado em aprendizagem por reforço (RL) tem sido crucial para permitir o raciocínio multi-etapa em grandes modelos de raciocínio (LRMs), contudo, os esquemas de recompensa atuais são tipicamente centrados no resultado. Propomos o PM4GRPO, uma Otimização de Política Relativa de Grupo (GRPO) consciente do raciocínio, que aumenta as recompensas padrão de resposta/formato com sinais sobre o procedimento de raciocínio. Para este fim, técnicas de *process mining* são utilizadas para calcular uma recompensa escalar de conformidade que mede o quão próximo o raciocínio de um modelo de política se alinha com o modelo professor pré-treinado. Os resultados empíricos em cinco *benchmarks* demonstram que o PM4GRPO supera significativamente as metodologias existentes para pós-treinamento baseado em GRPO. Estes resultados destacam que a utilização de *process mining* para GRPO consciente do raciocínio melhora efetivamente as capacidades de raciocínio dos modelos de política.
English
Reinforcement learning (RL)-based post-training has been crucial for enabling
multi-step reasoning in large reasoning models (LRMs), yet current reward
schemes are typically outcome-centric. We propose PM4GRPO, a reasoning-aware
Group Relative Policy Optimization (GRPO) that augments standard answer/format
rewards with signals over the reasoning procedure. To this end, process mining
techniques are utilized to compute a scalar conformance reward that measures
how closely a policy model's reasoning aligns with the pretrained teacher
model. The empirical results on five benchmarks demonstrate that PM4GRPO
significantly outperforms existing methodologies for GRPO-based post-training.
These results highlight that leveraging process mining for reasoning-aware GRPO
effectively enhances the reasoning capabilities of policy models.