ChatPaper.aiChatPaper

VAR RL Hecho Correctamente: Abordando los Conflictos de Políticas Asíncronas en la Generación Visual Autoregresiva

VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation

January 5, 2026
Autores: Shikun Sun, Liao Qu, Huichao Zhang, Yiheng Liu, Yangyang Song, Xian Li, Xu Wang, Yi Jiang, Daniel K. Du, Xinglong Wu, Jia Jia
cs.AI

Resumen

La generación visual está dominada por tres paradigmas: modelos Autoregresivos (AR), de difusión y Autoregresivos Visuales (VAR). A diferencia de los modelos AR y de difusión, los VAR operan sobre estructuras de entrada heterogéneas a lo largo de sus pasos de generación, lo que crea graves conflictos de políticas asíncronos. Este problema se vuelve particularmente agudo en escenarios de aprendizaje por refuerzo (RL), conduciendo a un entrenamiento inestable y a una alineación subóptima. Para resolverlo, proponemos un marco novedoso para mejorar la Optimización de Políticas Relativas de Grupo (GRPO) mediante la gestión explícita de estos conflictos. Nuestro método integra tres componentes sinérgicos: 1) una recompensa intermedia estabilizadora para guiar la generación en etapas tempranas; 2) un esquema de reponderación dinámica de pasos temporales para una asignación de crédito precisa; y 3) un novedoso algoritmo de propagación de máscaras, derivado de los principios del Aprendizaje por Retroalimentación de Recompensas (ReFL), diseñado para aislar los efectos de la optimización tanto espacial como temporalmente. Nuestro enfoque demuestra mejoras significativas en la calidad de las muestras y la alineación con los objetivos respecto a la línea base GRPO original, permitiendo una optimización robusta y efectiva para modelos VAR.
English
Visual generation is dominated by three paradigms: AutoRegressive (AR), diffusion, and Visual AutoRegressive (VAR) models. Unlike AR and diffusion, VARs operate on heterogeneous input structures across their generation steps, which creates severe asynchronous policy conflicts. This issue becomes particularly acute in reinforcement learning (RL) scenarios, leading to unstable training and suboptimal alignment. To resolve this, we propose a novel framework to enhance Group Relative Policy Optimization (GRPO) by explicitly managing these conflicts. Our method integrates three synergistic components: 1) a stabilizing intermediate reward to guide early-stage generation; 2) a dynamic time-step reweighting scheme for precise credit assignment; and 3) a novel mask propagation algorithm, derived from principles of Reward Feedback Learning (ReFL), designed to isolate optimization effects both spatially and temporally. Our approach demonstrates significant improvements in sample quality and objective alignment over the vanilla GRPO baseline, enabling robust and effective optimization for VAR models.
PDF281January 7, 2026