ChatPaper.aiChatPaper

VAR RL richtig gemacht: Bewältigung asynchroner Politik-Konflikte in der visuellen autoregressiven Generierung

VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation

January 5, 2026
papers.authors: Shikun Sun, Liao Qu, Huichao Zhang, Yiheng Liu, Yangyang Song, Xian Li, Xu Wang, Yi Jiang, Daniel K. Du, Xinglong Wu, Jia Jia
cs.AI

papers.abstract

Die visuelle Generierung wird von drei Paradigmen dominiert: autoregressiven (AR), Diffusions- und Visual AutoRegressive (VAR)-Modellen. Im Gegensatz zu AR- und Diffusionsmodellen arbeiten VARs mit heterogenen Eingabestrukturen über ihre Generierungsschritte hinweg, was schwerwiegende asynchrone Policy-Konflikte verursacht. Dieses Problem verschärft sich insbesondere in Reinforcement-Learning (RL)-Szenarien, was zu instabilem Training und suboptimaler Alignment führt. Zur Lösung dieses Problems schlagen wir einen neuartigen Rahmen vor, der Group Relative Policy Optimization (GRPO) verbessert, indem diese Konflikte explizit verwaltet werden. Unsere Methode integriert drei synergetische Komponenten: 1) eine stabilisierende Zwischenbelohnung zur Steuerung der Frühphasen-Generierung; 2) ein dynamisches Zeitschritt-Gewichtungsschema für präzise Credit Assignment; und 3) einen neuartigen Maskenpropagationsalgorithmus, der aus Prinzipien des Reward Feedback Learning (ReFL) abgeleitet ist und darauf ausgelegt ist, Optimierungseffekte räumlich und zeitlich zu isolieren. Unser Ansatz zeigt signifikante Verbesserungen in der Probenqualität und der Zielfunktionsausrichtung gegenüber der herkömmlichen GRPO-Basislinie und ermöglicht so eine robuste und effektive Optimierung für VAR-Modelle.
English
Visual generation is dominated by three paradigms: AutoRegressive (AR), diffusion, and Visual AutoRegressive (VAR) models. Unlike AR and diffusion, VARs operate on heterogeneous input structures across their generation steps, which creates severe asynchronous policy conflicts. This issue becomes particularly acute in reinforcement learning (RL) scenarios, leading to unstable training and suboptimal alignment. To resolve this, we propose a novel framework to enhance Group Relative Policy Optimization (GRPO) by explicitly managing these conflicts. Our method integrates three synergistic components: 1) a stabilizing intermediate reward to guide early-stage generation; 2) a dynamic time-step reweighting scheme for precise credit assignment; and 3) a novel mask propagation algorithm, derived from principles of Reward Feedback Learning (ReFL), designed to isolate optimization effects both spatially and temporally. Our approach demonstrates significant improvements in sample quality and objective alignment over the vanilla GRPO baseline, enabling robust and effective optimization for VAR models.
PDF281January 7, 2026