GRPO con Conciencia del Razonamiento mediante Minería de Procesos

Resumen

El post-entrenamiento basado en aprendizaje por refuerzo (RL) ha sido crucial para habilitar el razonamiento multi-paso en los grandes modelos de razonamiento (LRM); sin embargo, los esquemas de recompensa actuales suelen ser centrados en el resultado. Proponemos PM4GRPO, una Optimización de Políticas Relativas por Grupos (GRPO) consciente del razonamiento, que aumenta las recompensas estándar de respuesta/formato con señales sobre el procedimiento de razonamiento. Para ello, se utilizan técnicas de minería de procesos para calcular una recompensa escalar de conformidad que mide cuán estrechamente se alinea el razonamiento de un modelo de política con el modelo profesor preentrenado. Los resultados empíricos en cinco benchmarks demuestran que PM4GRPO supera significativamente a las metodologías existentes para el post-entrenamiento basado en GRPO. Estos resultados destacan que el aprovechamiento de la minería de procesos para una GRPO consciente del razonamiento mejora eficazmente las capacidades de razonamiento de los modelos de política.

English

Reinforcement learning (RL)-based post-training has been crucial for enabling multi-step reasoning in large reasoning models (LRMs), yet current reward schemes are typically outcome-centric. We propose PM4GRPO, a reasoning-aware Group Relative Policy Optimization (GRPO) that augments standard answer/format rewards with signals over the reasoning procedure. To this end, process mining techniques are utilized to compute a scalar conformance reward that measures how closely a policy model's reasoning aligns with the pretrained teacher model. The empirical results on five benchmarks demonstrate that PM4GRPO significantly outperforms existing methodologies for GRPO-based post-training. These results highlight that leveraging process mining for reasoning-aware GRPO effectively enhances the reasoning capabilities of policy models.

GRPO con Conciencia del Razonamiento mediante Minería de Procesos

Reasoning-Aware GRPO using Process Mining

Resumen

Support