Prefix Grouper: Treinamento Eficiente de GRPO por meio de Forward de Prefixo Compartilhado

Resumo

O Group Relative Policy Optimization (GRPO) aprimora o aprendizado de políticas ao calcular gradientes a partir de comparações relativas entre saídas candidatas que compartilham um prefixo de entrada comum. Apesar de sua eficácia, o GRPO introduz uma sobrecarga computacional significativa ao processar prefixos compartilhados longos, que precisam ser codificados de forma redundante para cada membro do grupo. Essa ineficiência se torna um grande gargalo de escalabilidade em cenários de aprendizado com contexto longo. Propomos o Prefix Grouper, um algoritmo de treinamento eficiente para GRPO que elimina a computação redundante de prefixos por meio de uma estratégia de Forward de Prefixo Compartilhado. Especificamente, ao reestruturar a auto-atenção em duas partes, nosso método permite que o prefixo compartilhado seja codificado apenas uma vez, mantendo a diferenciabilidade completa e a compatibilidade com o treinamento de ponta a ponta. Fornecemos evidências teóricas e empíricas de que o Prefix Grouper é equivalente ao GRPO padrão em termos de treinamento: ele produz saídas diretas e gradientes retropropagados idênticos, garantindo que a dinâmica de otimização e o desempenho final da política permaneçam inalterados. Empiricamente, nossos experimentos confirmam que o Prefix Grouper alcança resultados consistentes enquanto reduz significativamente o custo computacional do treinamento, especialmente em cenários com prefixos longos. O método proposto é totalmente plug-and-play: é compatível com arquiteturas baseadas em GRPO existentes e pode ser integrado de forma transparente aos pipelines de treinamento atuais como uma substituição direta, sem exigir modificações estruturais e apenas mudanças mínimas na construção de entradas e no cálculo de atenção. O Prefix Grouper permite o uso de tamanhos de grupo maiores sob o mesmo orçamento computacional, melhorando assim a escalabilidade do GRPO para tarefas mais complexas e modelos maiores. O código está disponível em https://github.com/johncaged/PrefixGrouper.

English

Group Relative Policy Optimization (GRPO) enhances policy learning by computing gradients from relative comparisons among candidate outputs that share a common input prefix. Despite its effectiveness, GRPO introduces substantial computational overhead when processing long shared prefixes, which must be redundantly encoded for each group member. This inefficiency becomes a major scalability bottleneck in long-context learning scenarios. We propose Prefix Grouper, an efficient GRPO training algorithm that eliminates redundant prefix computation via a Shared-Prefix Forward strategy. In particular, by restructuring self-attention into two parts, our method enables the shared prefix to be encoded only once, while preserving full differentiability and compatibility with end-to-end training. We provide both theoretical and empirical evidence that Prefix Grouper is training-equivalent to standard GRPO: it yields identical forward outputs and backward gradients, ensuring that the optimization dynamics and final policy performance remain unchanged. Empirically, our experiments confirm that Prefix Grouper achieves consistent results while significantly reducing the computational cost of training, particularly in long-prefix scenarios. The proposed method is fully plug-and-play: it is compatible with existing GRPO-based architectures and can be seamlessly integrated into current training pipelines as a drop-in replacement, requiring no structural modifications and only minimal changes to input construction and attention computation. Prefix Grouper enables the use of larger group sizes under the same computational budget, thereby improving the scalability of GRPO to more complex tasks and larger models. Code is now available at https://github.com/johncaged/PrefixGrouper

Prefix Grouper: Treinamento Eficiente de GRPO por meio de Forward de Prefixo Compartilhado

Prefix Grouper: Efficient GRPO Training through Shared-Prefix Forward

Resumo

Support