Begeleidende contrastieve token-krediettoewijzing voor discrete beleidsoptimalisatie

Samenvatting

Op groepsvoordeel gebaseerde versterkingsleermethoden, zoals GRPO en DAPO, hebben sterke prestaties laten zien in uiteenlopende domeinen, waaronder wiskundig redeneren en tekst-naar-beeld-generatie. Hun afhankelijkheid van beloningen op steekproefniveau introduceert echter een belangrijke beperking, omdat uniforme krediettoewijzing over alle tokens heen geen fijnmazige bijdragen op tokenniveau weet te vatten. Om dit probleem aan te pakken stellen wij Guidance Contrastive Policy Optimization (GCPO) voor, een nieuw algoritme dat per-token krediettoewijzing mogelijk maakt door modelvoorspellingen onder positieve en negatieve prompts te contrasteren. In plaats van voordelen op steekproefniveau uniform uit te zenden, kent GCPO voordelen op tokenniveau toe die evenredig zijn aan het verschil tussen deze contrasterende voorspellingen, wat leidt tot preciezere en informatievere leersignalen. Empirisch zien wij dat GCPO semantisch relevante regio's benadrukt, zoals visuele gebieden die overeenkomen met tekstuele prompts bij tekst-naar-beeld-generatie, en kritieke trefwoorden binnen redeneersporen voor keten-van-gedachten taken. Uit uitgebreide experimenten blijkt dat GCPO consequent betere prestaties levert dan de GRPO- en DAPO-baselines op zowel tekst-naar-beeld-generatie- als keten-van-gedachten-redeneerbenchmarks, wat de effectiviteit aantoont als een algemene en schaalbare optimalisatiestrategie voor discreet beleidsleren.

English

Group-advantage-based reinforcement learning methods, such as GRPO and DAPO, have demonstrated strong performance across diverse domains, including mathematical reasoning and text-to-image generation. However, their reliance on sample-level rewards introduces a key limitation as uniform credit assignment across all tokens fails to capture fine-grained, token-level contributions. To address this issue, we propose Guidance Contrastive Policy Optimization (GCPO), a novel algorithm that enables per-token credit assignment by contrasting model predictions under positive and negative prompts. Rather than uniformly broadcasting sample-level advantages, GCPO assigns token-level advantages proportional to the difference between these contrastive predictions, allowing more precise and informative learning signals. Empirically, we find that GCPO emphasizes semantically relevant regions such as visual areas aligned with textual prompts in text-to-image generation, and critical keywords within reasoning traces for chain-of-thought tasks. Through extensive experiments, GCPO consistently outperforms GRPO and DAPO baselines on both text-to-image generation and chain-of-thought reasoning benchmarks, demonstrating its effectiveness as a general and scalable optimization strategy for discrete policy learning.