ChatPaper.aiChatPaper

Prefix Grouper: Эффективное обучение GRPO с использованием разделяемого префикса в прямом проходе

Prefix Grouper: Efficient GRPO Training through Shared-Prefix Forward

June 5, 2025
Авторы: Zikang Liu, Tongtian Yue, Yepeng Tang, Longteng Guo, Junxian Cai, Qingbin Liu, Xi Chen, Jing Liu
cs.AI

Аннотация

Групповая Оптимизация Относительной Политики (Group Relative Policy Optimization, GRPO) улучшает обучение политик за счет вычисления градиентов на основе относительных сравнений между кандидатными выходами, которые имеют общий входной префикс. Несмотря на свою эффективность, GRPO вносит значительные вычислительные издержки при обработке длинных общих префиксов, которые должны избыточно кодироваться для каждого члена группы. Эта неэффективность становится основным узким местом масштабируемости в сценариях обучения с длинным контекстом. Мы предлагаем Prefix Grouper, эффективный алгоритм обучения GRPO, который устраняет избыточные вычисления префиксов с помощью стратегии Shared-Prefix Forward. В частности, путем реструктуризации самовнимания на две части наш метод позволяет кодировать общий префикс только один раз, сохраняя при этом полную дифференцируемость и совместимость с сквозным обучением. Мы предоставляем как теоретические, так и эмпирические доказательства того, что Prefix Grouper эквивалентен стандартному GRPO в обучении: он дает идентичные прямые выходы и обратные градиенты, что гарантирует неизменность динамики оптимизации и конечной производительности политики. Эмпирически наши эксперименты подтверждают, что Prefix Grouper достигает согласованных результатов при значительном снижении вычислительных затрат на обучение, особенно в сценариях с длинными префиксами. Предложенный метод полностью готов к использованию: он совместим с существующими архитектурами на основе GRPO и может быть легко интегрирован в текущие конвейеры обучения в качестве замены, не требуя структурных изменений и лишь минимальных изменений в построении входных данных и вычислении внимания. Prefix Grouper позволяет использовать большие размеры групп при том же вычислительном бюджете, тем самым улучшая масштабируемость GRPO для более сложных задач и крупных моделей. Код доступен по адресу: https://github.com/johncaged/PrefixGrouper.
English
Group Relative Policy Optimization (GRPO) enhances policy learning by computing gradients from relative comparisons among candidate outputs that share a common input prefix. Despite its effectiveness, GRPO introduces substantial computational overhead when processing long shared prefixes, which must be redundantly encoded for each group member. This inefficiency becomes a major scalability bottleneck in long-context learning scenarios. We propose Prefix Grouper, an efficient GRPO training algorithm that eliminates redundant prefix computation via a Shared-Prefix Forward strategy. In particular, by restructuring self-attention into two parts, our method enables the shared prefix to be encoded only once, while preserving full differentiability and compatibility with end-to-end training. We provide both theoretical and empirical evidence that Prefix Grouper is training-equivalent to standard GRPO: it yields identical forward outputs and backward gradients, ensuring that the optimization dynamics and final policy performance remain unchanged. Empirically, our experiments confirm that Prefix Grouper achieves consistent results while significantly reducing the computational cost of training, particularly in long-prefix scenarios. The proposed method is fully plug-and-play: it is compatible with existing GRPO-based architectures and can be seamlessly integrated into current training pipelines as a drop-in replacement, requiring no structural modifications and only minimal changes to input construction and attention computation. Prefix Grouper enables the use of larger group sizes under the same computational budget, thereby improving the scalability of GRPO to more complex tasks and larger models. Code is now available at https://github.com/johncaged/PrefixGrouper
PDF42June 9, 2025