GRPO con Conciencia del Razonamiento mediante Minería de Procesos
Reasoning-Aware GRPO using Process Mining
October 29, 2025
Autores: Taekhyun Park, Yongjae Lee, Hyerim Bae
cs.AI
Resumen
El post-entrenamiento basado en aprendizaje por refuerzo (RL) ha sido crucial para habilitar el razonamiento multi-paso en los grandes modelos de razonamiento (LRM); sin embargo, los esquemas de recompensa actuales suelen ser centrados en el resultado. Proponemos PM4GRPO, una Optimización de Políticas Relativas por Grupos (GRPO) consciente del razonamiento, que aumenta las recompensas estándar de respuesta/formato con señales sobre el procedimiento de razonamiento. Para ello, se utilizan técnicas de minería de procesos para calcular una recompensa escalar de conformidad que mide cuán estrechamente se alinea el razonamiento de un modelo de política con el modelo profesor preentrenado. Los resultados empíricos en cinco benchmarks demuestran que PM4GRPO supera significativamente a las metodologías existentes para el post-entrenamiento basado en GRPO. Estos resultados destacan que el aprovechamiento de la minería de procesos para una GRPO consciente del razonamiento mejora eficazmente las capacidades de razonamiento de los modelos de política.
English
Reinforcement learning (RL)-based post-training has been crucial for enabling
multi-step reasoning in large reasoning models (LRMs), yet current reward
schemes are typically outcome-centric. We propose PM4GRPO, a reasoning-aware
Group Relative Policy Optimization (GRPO) that augments standard answer/format
rewards with signals over the reasoning procedure. To this end, process mining
techniques are utilized to compute a scalar conformance reward that measures
how closely a policy model's reasoning aligns with the pretrained teacher
model. The empirical results on five benchmarks demonstrate that PM4GRPO
significantly outperforms existing methodologies for GRPO-based post-training.
These results highlight that leveraging process mining for reasoning-aware GRPO
effectively enhances the reasoning capabilities of policy models.