ChatPaper.aiChatPaper

Scale-Wise VAR ist im Grunde eine diskrete Diffusion.

Scale-Wise VAR is Secretly Discrete Diffusion

September 26, 2025
papers.authors: Amandeep Kumar, Nithin Gopalakrishnan Nair, Vishal M. Patel
cs.AI

papers.abstract

Autoregressive (AR) Transformer haben sich als leistungsstarkes Paradigma für die visuelle Generierung etabliert, vor allem aufgrund ihrer Skalierbarkeit, Recheneffizienz und einheitlichen Architektur für Sprache und Vision. Unter ihnen hat die nächste Skalenprädiktion mit Visual Autoregressive Generation (VAR) kürzlich bemerkenswerte Leistungen gezeigt und sogar diffusionsbasierte Modelle übertroffen. In dieser Arbeit untersuchen wir VAR erneut und decken eine theoretische Erkenntnis auf: Wenn VAR mit einer Markovschen Aufmerksamkeitsmaske ausgestattet ist, ist es mathematisch äquivalent zu einer diskreten Diffusion. Diese Neuinterpretation bezeichnen wir als Scalable Visual Refinement with Discrete Diffusion (SRDD) und schaffen damit eine prinzipielle Brücke zwischen AR-Transformern und Diffusionsmodellen. Indem wir diese neue Perspektive nutzen, zeigen wir, wie man die Vorteile der Diffusion, wie iterative Verfeinerung und die Reduzierung architektonischer Ineffizienzen, direkt in VAR integrieren kann, was zu schnellerer Konvergenz, geringeren Inferenzkosten und verbesserter Zero-Shot-Rekonstruktion führt. Über mehrere Datensätze hinweg demonstrieren wir, dass die diffusionsbasierte Perspektive auf VAR zu konsistenten Gewinnen in Effizienz und Generierung führt.
English
Autoregressive (AR) transformers have emerged as a powerful paradigm for visual generation, largely due to their scalability, computational efficiency and unified architecture with language and vision. Among them, next scale prediction Visual Autoregressive Generation (VAR) has recently demonstrated remarkable performance, even surpassing diffusion-based models. In this work, we revisit VAR and uncover a theoretical insight: when equipped with a Markovian attention mask, VAR is mathematically equivalent to a discrete diffusion. We term this reinterpretation as Scalable Visual Refinement with Discrete Diffusion (SRDD), establishing a principled bridge between AR transformers and diffusion models. Leveraging this new perspective, we show how one can directly import the advantages of diffusion such as iterative refinement and reduce architectural inefficiencies into VAR, yielding faster convergence, lower inference cost, and improved zero-shot reconstruction. Across multiple datasets, we show that the diffusion based perspective of VAR leads to consistent gains in efficiency and generation.
PDF22September 29, 2025