VAR RL Goed Gedaan: Het Aanpakken van Asynchroon Beleidsconflicten in Visuele Autoregressieve Generatie
VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation
January 5, 2026
Auteurs: Shikun Sun, Liao Qu, Huichao Zhang, Yiheng Liu, Yangyang Song, Xian Li, Xu Wang, Yi Jiang, Daniel K. Du, Xinglong Wu, Jia Jia
cs.AI
Samenvatting
Visuele generatie wordt gedomineerd door drie paradigma's: AutoRegressieve (AR), diffusie- en Visuele AutoRegressieve (VAR) modellen. In tegenstelling tot AR- en diffusiemodellen werken VAR's met heterogene invoerstructuren tijdens hun generatiestappen, wat ernstige asynchrone beleidsconflicten veroorzaakt. Dit probleem wordt bijzonder acuut in reinforcement learning (RL) scenario's, wat leidt tot instabiele training en suboptimale afstemming. Om dit op te lossen, stellen we een nieuw raamwerk voor om Groepsrelatief Beleidsoptimalisatie (GRPO) te verbeteren door deze conflicten expliciet te beheren. Onze methode integreert drie synergetische componenten: 1) een stabiliserende tussenbeloning om de vroege generatiefase te sturen; 2) een dynamisch herwegingsschema voor tijdsstappen voor precieze krediettoewijzing; en 3) een nieuw maskerpropagatie-algoritme, afgeleid van principes van Reward Feedback Learning (ReFL), ontworpen om optimalisatie-effecten zowel ruimtelijk als temporeel te isoleren. Onze aanpak toont significante verbeteringen in samplekwaliteit en objectieve afstemming ten opzichte van de standaard GRPO-basislijn, waardoor robuuste en effectieve optimalisatie voor VAR-modellen mogelijk wordt.
English
Visual generation is dominated by three paradigms: AutoRegressive (AR), diffusion, and Visual AutoRegressive (VAR) models. Unlike AR and diffusion, VARs operate on heterogeneous input structures across their generation steps, which creates severe asynchronous policy conflicts. This issue becomes particularly acute in reinforcement learning (RL) scenarios, leading to unstable training and suboptimal alignment. To resolve this, we propose a novel framework to enhance Group Relative Policy Optimization (GRPO) by explicitly managing these conflicts. Our method integrates three synergistic components: 1) a stabilizing intermediate reward to guide early-stage generation; 2) a dynamic time-step reweighting scheme for precise credit assignment; and 3) a novel mask propagation algorithm, derived from principles of Reward Feedback Learning (ReFL), designed to isolate optimization effects both spatially and temporally. Our approach demonstrates significant improvements in sample quality and objective alignment over the vanilla GRPO baseline, enabling robust and effective optimization for VAR models.