VAR Fatto Bene: Affrontare i Conflitti di Politica Asincrona nella Generazione Autoregressiva Visiva
VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation
January 5, 2026
Autori: Shikun Sun, Liao Qu, Huichao Zhang, Yiheng Liu, Yangyang Song, Xian Li, Xu Wang, Yi Jiang, Daniel K. Du, Xinglong Wu, Jia Jia
cs.AI
Abstract
La generazione visiva è dominata da tre paradigmi: modelli autoregressivi (AR), modelli di diffusione e modelli autoregressivi visivi (VAR). A differenza dei modelli AR e di diffusione, i VAR operano su strutture di input eterogenee attraverso i loro passi di generazione, il che crea gravi conflitti di policy asincroni. Questo problema diventa particolarmente acuto negli scenari di apprendimento per rinforzo (RL), portando a un addestramento instabile e un allineamento subottimale. Per risolverlo, proponiamo una nuova architettura per potenziare l'Ottimizzazione della Policy Relativa di Gruppo (GRPO) gestendo esplicitamente questi conflitti. Il nostro metodo integra tre componenti sinergiche: 1) una ricompensa intermedia stabilizzante per guidare la generazione nelle fasi iniziali; 2) uno schema di ponderazione dinamica dei time-step per un'assegnazione precisa del credito; e 3) un innovativo algoritmo di propagazione delle maschere, derivato dai principi del Reward Feedback Learning (ReFL), progettato per isolare gli effetti dell'ottimizzazione sia spazialmente che temporalmente. Il nostro approccio dimostra miglioramenti significativi nella qualità del campione e nell'allineamento agli obiettivi rispetto al baseline GRPO standard, consentendo un'ottimizzazione robusta ed efficace per i modelli VAR.
English
Visual generation is dominated by three paradigms: AutoRegressive (AR), diffusion, and Visual AutoRegressive (VAR) models. Unlike AR and diffusion, VARs operate on heterogeneous input structures across their generation steps, which creates severe asynchronous policy conflicts. This issue becomes particularly acute in reinforcement learning (RL) scenarios, leading to unstable training and suboptimal alignment. To resolve this, we propose a novel framework to enhance Group Relative Policy Optimization (GRPO) by explicitly managing these conflicts. Our method integrates three synergistic components: 1) a stabilizing intermediate reward to guide early-stage generation; 2) a dynamic time-step reweighting scheme for precise credit assignment; and 3) a novel mask propagation algorithm, derived from principles of Reward Feedback Learning (ReFL), designed to isolate optimization effects both spatially and temporally. Our approach demonstrates significant improvements in sample quality and objective alignment over the vanilla GRPO baseline, enabling robust and effective optimization for VAR models.