Prefix Grouper: Addestramento Efficiente di GRPO tramite Forward a Prefisso Condiviso

Abstract

Group Relative Policy Optimization (GRPO) migliora l'apprendimento delle politiche calcolando i gradienti da confronti relativi tra output candidati che condividono un prefisso di input comune. Nonostante la sua efficacia, GRPO introduce un sovraccarico computazionale significativo quando elabora prefissi condivisi lunghi, che devono essere codificati in modo ridondante per ogni membro del gruppo. Questa inefficienza diventa un collo di bottiglia importante per la scalabilità negli scenari di apprendimento con contesti lunghi. Proponiamo Prefix Grouper, un algoritmo di addestramento GRPO efficiente che elimina il calcolo ridondante del prefisso attraverso una strategia di Shared-Prefix Forward. In particolare, ristrutturando l'auto-attenzione in due parti, il nostro metodo consente di codificare il prefisso condiviso una sola volta, preservando al contempo la completa differenziabilità e la compatibilità con l'addestramento end-to-end. Forniamo sia prove teoriche che empiriche che Prefix Grouper è equivalente in addestramento al GRPO standard: produce output in avanti e gradienti all'indietro identici, garantendo che le dinamiche di ottimizzazione e le prestazioni finali della politica rimangano invariate. Empiricamente, i nostri esperimenti confermano che Prefix Grouper ottiene risultati consistenti riducendo significativamente il costo computazionale dell'addestramento, specialmente negli scenari con prefissi lunghi. Il metodo proposto è completamente plug-and-play: è compatibile con le architetture basate su GRPO esistenti e può essere integrato senza soluzione di continuità nelle pipeline di addestramento attuali come sostituzione diretta, senza richiedere modifiche strutturali e solo minimi cambiamenti alla costruzione dell'input e al calcolo dell'attenzione. Prefix Grouper consente l'uso di dimensioni di gruppo maggiori a parità di budget computazionale, migliorando così la scalabilità di GRPO per compiti più complessi e modelli più grandi. Il codice è ora disponibile all'indirizzo https://github.com/johncaged/PrefixGrouper.

English

Group Relative Policy Optimization (GRPO) enhances policy learning by computing gradients from relative comparisons among candidate outputs that share a common input prefix. Despite its effectiveness, GRPO introduces substantial computational overhead when processing long shared prefixes, which must be redundantly encoded for each group member. This inefficiency becomes a major scalability bottleneck in long-context learning scenarios. We propose Prefix Grouper, an efficient GRPO training algorithm that eliminates redundant prefix computation via a Shared-Prefix Forward strategy. In particular, by restructuring self-attention into two parts, our method enables the shared prefix to be encoded only once, while preserving full differentiability and compatibility with end-to-end training. We provide both theoretical and empirical evidence that Prefix Grouper is training-equivalent to standard GRPO: it yields identical forward outputs and backward gradients, ensuring that the optimization dynamics and final policy performance remain unchanged. Empirically, our experiments confirm that Prefix Grouper achieves consistent results while significantly reducing the computational cost of training, particularly in long-prefix scenarios. The proposed method is fully plug-and-play: it is compatible with existing GRPO-based architectures and can be seamlessly integrated into current training pipelines as a drop-in replacement, requiring no structural modifications and only minimal changes to input construction and attention computation. Prefix Grouper enables the use of larger group sizes under the same computational budget, thereby improving the scalability of GRPO to more complex tasks and larger models. Code is now available at https://github.com/johncaged/PrefixGrouper

Prefix Grouper: Addestramento Efficiente di GRPO tramite Forward a Prefisso Condiviso

Prefix Grouper: Efficient GRPO Training through Shared-Prefix Forward

Abstract

Support