VAR Feito da Maneira Certa: Enfrentando Conflitos de Políticas Assíncronas na Geração Visual Autoregressiva

Resumo

A geração visual é dominada por três paradigmas: modelos AutoRegressivos (AR), de difusão e Visuais AutoRegressivos (VAR). Diferente dos AR e de difusão, os VARs operam em estruturas de entrada heterogêneas ao longo de suas etapas de geração, o que cria severos conflitos de política assíncronos. Esse problema torna-se particularmente agudo em cenários de aprendizado por reforço (RL), levando a treinamento instável e alinhamento subótimo. Para resolver isso, propomos uma nova estrutura para aprimorar a Otimização de Política Relativa de Grupo (GRPO) gerenciando explicitamente esses conflitos. Nosso método integra três componentes sinérgicos: 1) uma recompensa intermediária estabilizadora para guiar a geração em estágios iniciais; 2) um esquema dinâmico de reponderação de intervalo de tempo para atribuição de crédito precisa; e 3) um novo algoritmo de propagação de máscara, derivado dos princípios da Aprendizagem por Feedback de Recompensa (ReFL), projetado para isolar efeitos de otimização tanto espacial quanto temporalmente. Nossa abordagem demonstra melhorias significativas na qualidade da amostra e no alinhamento objetivo em relação à linha de base GRPO padrão, permitindo uma otimização robusta e eficaz para modelos VAR.

English

Visual generation is dominated by three paradigms: AutoRegressive (AR), diffusion, and Visual AutoRegressive (VAR) models. Unlike AR and diffusion, VARs operate on heterogeneous input structures across their generation steps, which creates severe asynchronous policy conflicts. This issue becomes particularly acute in reinforcement learning (RL) scenarios, leading to unstable training and suboptimal alignment. To resolve this, we propose a novel framework to enhance Group Relative Policy Optimization (GRPO) by explicitly managing these conflicts. Our method integrates three synergistic components: 1) a stabilizing intermediate reward to guide early-stage generation; 2) a dynamic time-step reweighting scheme for precise credit assignment; and 3) a novel mask propagation algorithm, derived from principles of Reward Feedback Learning (ReFL), designed to isolate optimization effects both spatially and temporally. Our approach demonstrates significant improvements in sample quality and objective alignment over the vanilla GRPO baseline, enabling robust and effective optimization for VAR models.

VAR Feito da Maneira Certa: Enfrentando Conflitos de Políticas Assíncronas na Geração Visual Autoregressiva

VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation

Resumo

Support