ChatPaper.aiChatPaper

VAR Escala a Escala es en Realidad una Difusión Discreta

Scale-Wise VAR is Secretly Discrete Diffusion

September 26, 2025
Autores: Amandeep Kumar, Nithin Gopalakrishnan Nair, Vishal M. Patel
cs.AI

Resumen

Los transformadores autorregresivos (AR) han surgido como un paradigma poderoso para la generación visual, en gran parte debido a su escalabilidad, eficiencia computacional y arquitectura unificada para el lenguaje y la visión. Entre ellos, la predicción de escala siguiente en la Generación Visual Autorregresiva (VAR) ha demostrado recientemente un rendimiento notable, superando incluso a los modelos basados en difusión. En este trabajo, revisitamos VAR y descubrimos una perspectiva teórica: cuando se equipa con una máscara de atención markoviana, VAR es matemáticamente equivalente a una difusión discreta. Denominamos esta reinterpretación como Refinamiento Visual Escalable con Difusión Discreta (SRDD), estableciendo un puente fundamentado entre los transformadores AR y los modelos de difusión. Aprovechando esta nueva perspectiva, mostramos cómo se pueden importar directamente las ventajas de la difusión, como el refinamiento iterativo, y reducir las ineficiencias arquitectónicas en VAR, logrando una convergencia más rápida, un menor costo de inferencia y una reconstrucción zero-shot mejorada. A través de múltiples conjuntos de datos, demostramos que la perspectiva basada en difusión de VAR conduce a ganancias consistentes en eficiencia y generación.
English
Autoregressive (AR) transformers have emerged as a powerful paradigm for visual generation, largely due to their scalability, computational efficiency and unified architecture with language and vision. Among them, next scale prediction Visual Autoregressive Generation (VAR) has recently demonstrated remarkable performance, even surpassing diffusion-based models. In this work, we revisit VAR and uncover a theoretical insight: when equipped with a Markovian attention mask, VAR is mathematically equivalent to a discrete diffusion. We term this reinterpretation as Scalable Visual Refinement with Discrete Diffusion (SRDD), establishing a principled bridge between AR transformers and diffusion models. Leveraging this new perspective, we show how one can directly import the advantages of diffusion such as iterative refinement and reduce architectural inefficiencies into VAR, yielding faster convergence, lower inference cost, and improved zero-shot reconstruction. Across multiple datasets, we show that the diffusion based perspective of VAR leads to consistent gains in efficiency and generation.
PDF22September 29, 2025