ChatPaper.aiChatPaper

VAR RL의 올바른 구현: 시각적 자기회귀 생성에서 비동기적 정책 충돌 해결

VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation

January 5, 2026
저자: Shikun Sun, Liao Qu, Huichao Zhang, Yiheng Liu, Yangyang Song, Xian Li, Xu Wang, Yi Jiang, Daniel K. Du, Xinglong Wu, Jia Jia
cs.AI

초록

시각 생성 분야는 자기회귀(AR), 확산, 시각 자기회귀(VAR) 모델이라는 세 가지 패러다임이 주류를 이루고 있습니다. AR 및 확산 모델과 달리, VAR은 생성 단계마다 이질적인 입력 구조로 동작하므로 심각한 비동기적 정책 충돌이 발생합니다. 이러한 문제는 특히 강화학습(RL) 시나리오에서 더욱 첨예해져 학습 불안정과 차선의 정렬 결과를 초래합니다. 이를 해결하기 위해 본 연구에서는 이러한 충돌을 명시적으로 관리하여 그룹 상대 정책 최적화(GRPO)를 향상시키는 새로운 프레임워크를 제안합니다. 우리의 방법은 상호 시너지적인 세 가지 구성 요소를 통합합니다: 1) 초기 생성 단계를 안내하는 안정화 중간 보상, 2) 정확한 크레딧 할당을 위한 동적 시간 단계 재가중 방안, 3) 공간적 및 시간적으로 최적화 효과를 분리하도록 설계된 보상 피드백 학습(ReFL) 원리에서 도출된 새로운 마스크 전파 알고리즘. 우리의 접근 방식은 기본 GRPO 기준선 대비 샘플 품질과 목표 정렬에서 현저한 향상을 보여주며, VAR 모델을 위한 강력하고 효과적인 최적화를 가능하게 합니다.
English
Visual generation is dominated by three paradigms: AutoRegressive (AR), diffusion, and Visual AutoRegressive (VAR) models. Unlike AR and diffusion, VARs operate on heterogeneous input structures across their generation steps, which creates severe asynchronous policy conflicts. This issue becomes particularly acute in reinforcement learning (RL) scenarios, leading to unstable training and suboptimal alignment. To resolve this, we propose a novel framework to enhance Group Relative Policy Optimization (GRPO) by explicitly managing these conflicts. Our method integrates three synergistic components: 1) a stabilizing intermediate reward to guide early-stage generation; 2) a dynamic time-step reweighting scheme for precise credit assignment; and 3) a novel mask propagation algorithm, derived from principles of Reward Feedback Learning (ReFL), designed to isolate optimization effects both spatially and temporally. Our approach demonstrates significant improvements in sample quality and objective alignment over the vanilla GRPO baseline, enabling robust and effective optimization for VAR models.
PDF281January 7, 2026