ChatPaper.aiChatPaper

Scale-Wise VAR is in wezen een discreet diffusieproces.

Scale-Wise VAR is Secretly Discrete Diffusion

September 26, 2025
Auteurs: Amandeep Kumar, Nithin Gopalakrishnan Nair, Vishal M. Patel
cs.AI

Samenvatting

Autoregressieve (AR) transformatoren zijn naar voren gekomen als een krachtig paradigma voor visuele generatie, grotendeels vanwege hun schaalbaarheid, computationele efficiëntie en uniforme architectuur voor zowel taal als visie. Onder hen heeft next scale prediction Visual Autoregressive Generation (VAR) recentelijk opmerkelijke prestaties laten zien, zelfs superieur aan op diffusie gebaseerde modellen. In dit werk herzien we VAR en ontdekken een theoretisch inzicht: wanneer uitgerust met een Markoviaans aandachtmasker, is VAR wiskundig equivalent aan een discrete diffusie. We noemen deze herinterpretatie Scalable Visual Refinement with Discrete Diffusion (SRDD), waarmee we een principiële brug slaan tussen AR-transformatoren en diffusiemodellen. Door gebruik te maken van dit nieuwe perspectief, laten we zien hoe men de voordelen van diffusie, zoals iteratieve verfijning, direct kan importeren in VAR, wat resulteert in snellere convergentie, lagere inferentiekosten en verbeterde zero-shot reconstructie. Over meerdere datasets tonen we aan dat het op diffusie gebaseerde perspectief van VAR leidt tot consistente verbeteringen in efficiëntie en generatie.
English
Autoregressive (AR) transformers have emerged as a powerful paradigm for visual generation, largely due to their scalability, computational efficiency and unified architecture with language and vision. Among them, next scale prediction Visual Autoregressive Generation (VAR) has recently demonstrated remarkable performance, even surpassing diffusion-based models. In this work, we revisit VAR and uncover a theoretical insight: when equipped with a Markovian attention mask, VAR is mathematically equivalent to a discrete diffusion. We term this reinterpretation as Scalable Visual Refinement with Discrete Diffusion (SRDD), establishing a principled bridge between AR transformers and diffusion models. Leveraging this new perspective, we show how one can directly import the advantages of diffusion such as iterative refinement and reduce architectural inefficiencies into VAR, yielding faster convergence, lower inference cost, and improved zero-shot reconstruction. Across multiple datasets, we show that the diffusion based perspective of VAR leads to consistent gains in efficiency and generation.
PDF22September 29, 2025