Diversiteit is er altijd al geweest in uw visuele autoregressieve modellen
Diversity Has Always Been There in Your Visual Autoregressive Models
November 21, 2025
Auteurs: Tong Wang, Guanyu Yang, Nian Liu, Kai Wang, Yaxing Wang, Abdelrahman M Shaker, Salman Khan, Fahad Shahbaz Khan, Senmao Li
cs.AI
Samenvatting
Visuele Autoregressieve (VAR) modellen hebben recentelijk aanzienlijke aandacht gekregen vanwege hun innovatieve next-scale voorspellingsparadigma, dat aanzienlijke voordelen biedt op het gebied van zowel inferentie-efficiëntie als beeldkwaliteit in vergelijking met traditionele multi-step autoregressieve (AR) en diffusiemodellen. Ondanks hun efficiëntie kampen VAR-modellen echter vaak met 'diversity collapse' (diversiteitsimplosie), een reductie in uitvoervariabiliteit, vergelijkbaar met wat wordt waargenomen bij few-step gedistilleerde diffusiemodellen. In dit artikel introduceren we DiverseVAR, een eenvoudige maar effectieve aanpak die de generatieve diversiteit van VAR-modellen herstelt zonder aanvullende training. Onze analyse onthult de cruciale component van de feature map als een sleutelfactor die de diversiteitsvorming op vroege schalen bepaalt. Door de cruciale component in de modelinput te onderdrukken en deze in de modeloutput te versterken, ontgrendelt DiverseVAR effectief het inherente generatieve potentieel van VAR-modellen, waarbij tegelijkertijd hoogwaardige synthese behouden blijft. Empirische resultaten tonen aan dat onze aanpak de generatieve diversiteit aanzienlijk verbetert met slechts verwaarloosbare prestatieverliezen. Onze code zal openbaar worden vrijgegeven op https://github.com/wangtong627/DiverseVAR.
English
Visual Autoregressive (VAR) models have recently garnered significant attention for their innovative next-scale prediction paradigm, offering notable advantages in both inference efficiency and image quality compared to traditional multi-step autoregressive (AR) and diffusion models. However, despite their efficiency, VAR models often suffer from the diversity collapse i.e., a reduction in output variability, analogous to that observed in few-step distilled diffusion models. In this paper, we introduce DiverseVAR, a simple yet effective approach that restores the generative diversity of VAR models without requiring any additional training. Our analysis reveals the pivotal component of the feature map as a key factor governing diversity formation at early scales. By suppressing the pivotal component in the model input and amplifying it in the model output, DiverseVAR effectively unlocks the inherent generative potential of VAR models while preserving high-fidelity synthesis. Empirical results demonstrate that our approach substantially enhances generative diversity with only neglectable performance influences. Our code will be publicly released at https://github.com/wangtong627/DiverseVAR.