VAR Bien Fait : Résoudre les Conflits de Politiques Asynchrones dans la Génération Visuelle Autoregressive
VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation
January 5, 2026
papers.authors: Shikun Sun, Liao Qu, Huichao Zhang, Yiheng Liu, Yangyang Song, Xian Li, Xu Wang, Yi Jiang, Daniel K. Du, Xinglong Wu, Jia Jia
cs.AI
papers.abstract
La génération visuelle est dominée par trois paradigmes : les modèles Autoregressifs (AR), par diffusion et Visual Autoregressif (VAR). Contrairement aux AR et à la diffusion, les VAR opèrent sur des structures d'entrée hétérogènes à travers leurs étapes de génération, ce qui crée de sévères conflits de politiques asynchrones. Ce problème devient particulièrement aigu dans les scénarios d'apprentissage par renforcement (RL), entraînant un apprentissage instable et un alignement sous-optimal. Pour résoudre ceci, nous proposons un nouveau cadre pour améliorer l'Optimisation de Politique Relative de Groupe (GRPO) en gérant explicitement ces conflits. Notre méthode intègre trois composantes synergiques : 1) une récompense intermédiaire stabilisatrice pour guider la génération aux stades précoces ; 2) un schéma de repondération dynamique des pas de temps pour une attribution de crédit précise ; et 3) un nouvel algorithme de propagation de masque, dérivé des principes du Reward Feedback Learning (ReFL), conçu pour isoler les effets d'optimisation à la fois spatialement et temporellement. Notre approche démontre des améliorations significatives de la qualité des échantillons et de l'alignement aux objectifs par rapport à la baseline GRPO standard, permettant une optimisation robuste et efficace pour les modèles VAR.
English
Visual generation is dominated by three paradigms: AutoRegressive (AR), diffusion, and Visual AutoRegressive (VAR) models. Unlike AR and diffusion, VARs operate on heterogeneous input structures across their generation steps, which creates severe asynchronous policy conflicts. This issue becomes particularly acute in reinforcement learning (RL) scenarios, leading to unstable training and suboptimal alignment. To resolve this, we propose a novel framework to enhance Group Relative Policy Optimization (GRPO) by explicitly managing these conflicts. Our method integrates three synergistic components: 1) a stabilizing intermediate reward to guide early-stage generation; 2) a dynamic time-step reweighting scheme for precise credit assignment; and 3) a novel mask propagation algorithm, derived from principles of Reward Feedback Learning (ReFL), designed to isolate optimization effects both spatially and temporally. Our approach demonstrates significant improvements in sample quality and objective alignment over the vanilla GRPO baseline, enabling robust and effective optimization for VAR models.