VARLを正しく実装する:視覚的自動回帰生成における非同期ポリシー競合への対処
VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation
January 5, 2026
著者: Shikun Sun, Liao Qu, Huichao Zhang, Yiheng Liu, Yangyang Song, Xian Li, Xu Wang, Yi Jiang, Daniel K. Du, Xinglong Wu, Jia Jia
cs.AI
要旨
視覚生成は現在、主に3つのパラダイムによって支配されている:自己回帰(AR)モデル、拡散モデル、そして視覚的自己回帰(VAR)モデルである。ARや拡散モデルとは異なり、VARモデルは生成ステップ間で異種の入力構造を扱うため、深刻な非同期方策衝突が生じる。この問題は強化学習(RL)のシナリオにおいて特に顕著になり、不安定な訓練と最適ではないアライメントを引き起こす。これを解決するため、我々はこれらの衝突を明示的に管理することでGroup Relative Policy Optimization(GRPO)を強化する新しいフレームワークを提案する。本手法は3つの相乗的コンポーネントを統合する:1)初期段階の生成を導く安定化中間報酬、2)正確な信用割り当てのための動的時間ステップ再重み付けスキーム、そして3)Reward Feedback Learning(ReFL)の原理に基づく新しいマスク伝播アルゴリズムである。このアルゴリズムは、空間的および時間的に最適化効果を分離するように設計されている。我々のアプローチは、基本のGRPOベースラインと比較して、サンプル品質と目的へのアライメントにおいて大幅な改善を示し、VARモデルのための堅牢かつ効果的な最適化を実現する。
English
Visual generation is dominated by three paradigms: AutoRegressive (AR), diffusion, and Visual AutoRegressive (VAR) models. Unlike AR and diffusion, VARs operate on heterogeneous input structures across their generation steps, which creates severe asynchronous policy conflicts. This issue becomes particularly acute in reinforcement learning (RL) scenarios, leading to unstable training and suboptimal alignment. To resolve this, we propose a novel framework to enhance Group Relative Policy Optimization (GRPO) by explicitly managing these conflicts. Our method integrates three synergistic components: 1) a stabilizing intermediate reward to guide early-stage generation; 2) a dynamic time-step reweighting scheme for precise credit assignment; and 3) a novel mask propagation algorithm, derived from principles of Reward Feedback Learning (ReFL), designed to isolate optimization effects both spatially and temporally. Our approach demonstrates significant improvements in sample quality and objective alignment over the vanilla GRPO baseline, enabling robust and effective optimization for VAR models.