Направленное контрастивное присвоение кредита токенам для оптимизации дискретной политики

Аннотация

Методы обучения с подкреплением, основанные на групповом преимуществе, такие как GRPO и DAPO, продемонстрировали высокую эффективность в различных областях, включая математические рассуждения и генерацию изображений по текстовому описанию. Однако их зависимость от вознаграждений на уровне выборок вносит ключевое ограничение: равномерное распределение значимости по всем токенам не позволяет улавливать тонкие вклады на уровне отдельных токенов. Для решения этой проблемы мы предлагаем Guidance Contrastive Policy Optimization (GCPO) — новый алгоритм, обеспечивающий присвоение значимости на уровне токенов путем сравнения предсказаний модели при положительных и отрицательных подсказках. Вместо равномерного распространения преимуществ на уровне выборок GCPO присваивает преимущества на уровне токенов, пропорциональные разнице между этими контрастными предсказаниями, что позволяет получать более точные и информативные обучающие сигналы. Эмпирически мы обнаружили, что GCPO акцентирует семантически релевантные области, такие как визуальные зоны, соответствующие текстовым подсказкам при генерации изображений, и критические ключевые слова в цепочках рассуждений для задач, основанных на цепочке мыслей. В ходе обширных экспериментов GCPO стабильно превосходит базовые модели GRPO и DAPO как в задачах генерации изображений по тексту, так и в тестах на рассуждение с цепочкой мыслей, демонстрируя свою эффективность как общая и масштабируемая стратегия оптимизации для дискретного обучения политик.

English

Group-advantage-based reinforcement learning methods, such as GRPO and DAPO, have demonstrated strong performance across diverse domains, including mathematical reasoning and text-to-image generation. However, their reliance on sample-level rewards introduces a key limitation as uniform credit assignment across all tokens fails to capture fine-grained, token-level contributions. To address this issue, we propose Guidance Contrastive Policy Optimization (GCPO), a novel algorithm that enables per-token credit assignment by contrasting model predictions under positive and negative prompts. Rather than uniformly broadcasting sample-level advantages, GCPO assigns token-level advantages proportional to the difference between these contrastive predictions, allowing more precise and informative learning signals. Empirically, we find that GCPO emphasizes semantically relevant regions such as visual areas aligned with textual prompts in text-to-image generation, and critical keywords within reasoning traces for chain-of-thought tasks. Through extensive experiments, GCPO consistently outperforms GRPO and DAPO baselines on both text-to-image generation and chain-of-thought reasoning benchmarks, demonstrating its effectiveness as a general and scalable optimization strategy for discrete policy learning.