ChatPaper.aiChatPaper

Оптимизация политики с единым потоком

Single-stream Policy Optimization

September 16, 2025
Авторы: Zhongwen Xu, Zihan Ding
cs.AI

Аннотация

Мы пересматриваем оптимизацию на основе градиента политики для крупных языковых моделей (LLM) с точки зрения единого потока. Преобладающие групповые методы, такие как GRPO, снижают дисперсию с использованием динамических базовых уровней, но страдают от критических недостатков: частые вырожденные группы стирают сигналы обучения, а барьеры синхронизации препятствуют масштабируемости. Мы представляем оптимизацию политики с единым потоком (SPO), которая устраняет эти проблемы за счет своей конструкции. SPO заменяет групповые базовые уровни на постоянный, адаптивный к KL трекер значений и нормализует преимущества глобально по всей выборке, обеспечивая стабильный сигнал обучения с низкой дисперсией для каждого образца. Благодаря отсутствию групп, SPO обеспечивает более высокую пропускную способность и эффективно масштабируется в условиях длительных горизонтов или интеграции инструментов, где время генерации варьируется. Кроме того, постоянный трекер значений естественным образом позволяет реализовать адаптивную учебную программу через приоритетное семплирование. Эксперименты с использованием Qwen3-8B показывают, что SPO сходится более плавно и достигает более высокой точности, чем GRPO, при этом устраняя вычислительные затраты на вырожденные группы. Абляционные исследования подтверждают, что преимущества SPO обусловлены её принципиальным подходом к оценке базовых уровней и нормализации преимуществ, предлагая более надежный и эффективный путь для рассуждений LLM. На пяти сложных математических бенчмарках с Qwen3 8B SPO улучшает средний показатель maj@32 на +3,4 процентных пункта (п.п.) по сравнению с GRPO, что обусловлено значительными абсолютными приростами на сложных наборах данных, включая +7,3 п.п. на BRUMO 25, +4,4 п.п. на AIME 25, +3,3 п.п. на HMMT 25, и достигает стабильного относительного прироста в pass@k по всем оцененным значениям k. Успех SPO бросает вызов преобладающей тенденции добавления случайной сложности в алгоритмы обучения с подкреплением, подчеркивая путь, где фундаментальные принципы, а не архитектурные обходные решения, двигают следующую волну прогресса в рассуждениях LLM.
English
We revisit policy-gradient optimization for Large Language Models (LLMs) from a single-stream perspective. Prevailing group-based methods like GRPO reduce variance with on-the-fly baselines but suffer from critical flaws: frequent degenerate groups erase learning signals, and synchronization barriers hinder scalability. We introduce Single-stream Policy Optimization (SPO), which eliminates these issues by design. SPO replaces per-group baselines with a persistent, KL-adaptive value tracker and normalizes advantages globally across the batch, providing a stable, low-variance learning signal for every sample. Being group-free, SPO enables higher throughput and scales effectively in long-horizon or tool-integrated settings where generation times vary. Furthermore, the persistent value tracker naturally enables an adaptive curriculum via prioritized sampling. Experiments using Qwen3-8B show that SPO converges more smoothly and attains higher accuracy than GRPO, while eliminating computation wasted on degenerate groups. Ablation studies confirm that SPO's gains stem from its principled approach to baseline estimation and advantage normalization, offering a more robust and efficient path for LLM reasoning. Across five hard math benchmarks with Qwen3 8B, SPO improves the average maj@32 by +3.4 percentage points (pp) over GRPO, driven by substantial absolute point gains on challenging datasets, including +7.3 pp on BRUMO 25, +4.4 pp on AIME 25, +3.3 pp on HMMT 25, and achieves consistent relative gain in pass@k across the evaluated k values. SPO's success challenges the prevailing trend of adding incidental complexity to RL algorithms, highlighting a path where fundamental principles, not architectural workarounds, drive the next wave of progress in LLM reasoning.
PDF232September 17, 2025