VAR RL по правилам: решение проблемы асинхронных конфликтов политик в визуальном авторегрессионном генераторе
VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation
January 5, 2026
Авторы: Shikun Sun, Liao Qu, Huichao Zhang, Yiheng Liu, Yangyang Song, Xian Li, Xu Wang, Yi Jiang, Daniel K. Du, Xinglong Wu, Jia Jia
cs.AI
Аннотация
В области визуальной генерации доминируют три парадигмы: авторегрессионные (AR) модели, диффузионные модели и визуальные авторегрессионные (VAR) модели. В отличие от AR и диффузионных моделей, VAR-модели оперируют гетерогенными входными структурами на различных шагах генерации, что порождает серьезные асинхронные конфликты политик. Эта проблема становится особенно острой в сценариях обучения с подкреплением (RL), приводя к нестабильному обучению и субоптимальному согласованию. Для её решения мы предлагаем новую структуру, улучшающую Оптимизацию Относительной Политики Групп (GRPO) за счет явного управления этими конфликтами. Наш метод интегрирует три синергетических компонента: 1) стабилизирующую промежуточную награду для управления генерацией на ранних стадиях; 2) схему динамического перевзвешивания временных шагов для точного распределения заслуг; и 3) новый алгоритм распространения масок, основанный на принципах Обучения с Обратной Связью по Награде (ReFL), предназначенный для изоляции эффектов оптимизации как в пространственном, так и во временном измерениях. Наш подход демонстрирует значительное улучшение качества образцов и соответствия целевым показателям по сравнению с базовой моделью GRPO, обеспечивая надежную и эффективную оптимизацию для VAR-моделей.
English
Visual generation is dominated by three paradigms: AutoRegressive (AR), diffusion, and Visual AutoRegressive (VAR) models. Unlike AR and diffusion, VARs operate on heterogeneous input structures across their generation steps, which creates severe asynchronous policy conflicts. This issue becomes particularly acute in reinforcement learning (RL) scenarios, leading to unstable training and suboptimal alignment. To resolve this, we propose a novel framework to enhance Group Relative Policy Optimization (GRPO) by explicitly managing these conflicts. Our method integrates three synergistic components: 1) a stabilizing intermediate reward to guide early-stage generation; 2) a dynamic time-step reweighting scheme for precise credit assignment; and 3) a novel mask propagation algorithm, derived from principles of Reward Feedback Learning (ReFL), designed to isolate optimization effects both spatially and temporally. Our approach demonstrates significant improvements in sample quality and objective alignment over the vanilla GRPO baseline, enabling robust and effective optimization for VAR models.