GRPO com Consciência do Raciocínio utilizando Mineração de Processos

Resumo

O pós-treinamento baseado em aprendizagem por reforço (RL) tem sido crucial para permitir o raciocínio multi-etapa em grandes modelos de raciocínio (LRMs), contudo, os esquemas de recompensa atuais são tipicamente centrados no resultado. Propomos o PM4GRPO, uma Otimização de Política Relativa de Grupo (GRPO) consciente do raciocínio, que aumenta as recompensas padrão de resposta/formato com sinais sobre o procedimento de raciocínio. Para este fim, técnicas de *process mining* são utilizadas para calcular uma recompensa escalar de conformidade que mede o quão próximo o raciocínio de um modelo de política se alinha com o modelo professor pré-treinado. Os resultados empíricos em cinco *benchmarks* demonstram que o PM4GRPO supera significativamente as metodologias existentes para pós-treinamento baseado em GRPO. Estes resultados destacam que a utilização de *process mining* para GRPO consciente do raciocínio melhora efetivamente as capacidades de raciocínio dos modelos de política.

English

Reinforcement learning (RL)-based post-training has been crucial for enabling multi-step reasoning in large reasoning models (LRMs), yet current reward schemes are typically outcome-centric. We propose PM4GRPO, a reasoning-aware Group Relative Policy Optimization (GRPO) that augments standard answer/format rewards with signals over the reasoning procedure. To this end, process mining techniques are utilized to compute a scalar conformance reward that measures how closely a policy model's reasoning aligns with the pretrained teacher model. The empirical results on five benchmarks demonstrate that PM4GRPO significantly outperforms existing methodologies for GRPO-based post-training. These results highlight that leveraging process mining for reasoning-aware GRPO effectively enhances the reasoning capabilities of policy models.

GRPO com Consciência do Raciocínio utilizando Mineração de Processos

Reasoning-Aware GRPO using Process Mining

Resumo

Support