ChatPaper.aiChatPaper

Vielfalt war schon immer in Ihren visuellen autoregressiven Modellen vorhanden.

Diversity Has Always Been There in Your Visual Autoregressive Models

November 21, 2025
papers.authors: Tong Wang, Guanyu Yang, Nian Liu, Kai Wang, Yaxing Wang, Abdelrahman M Shaker, Salman Khan, Fahad Shahbaz Khan, Senmao Li
cs.AI

papers.abstract

Visuelle autoregressive (VAR) Modelle haben kürzlich aufgrund ihres innovativen Next-Scale-Vorhersageparadigmas bedeutende Aufmerksamkeit erregt, da sie im Vergleich zu traditionellen mehrstufigen autoregressiven (AR) und Diffusionsmodellen bemerkenswerte Vorteile sowohl in der Inferenzeffizienz als auch in der Bildqualität bieten. Trotz ihrer Effizienz leiden VAR-Modelle jedoch häufig unter einem Diversitätskollaps, d.h. einer Verringerung der Ausgabevariabilität, ähnlich der in wenige-Schritte-distillierten Diffusionsmodellen beobachteten. In diesem Artikel stellen wir DiverseVAR vor, einen einfachen, aber effektiven Ansatz, der die generative Vielfalt von VAR-Modellen wiederherstellt, ohne dass zusätzliches Training erforderlich ist. Unsere Analyse identifiziert die pivotale Komponente der Feature-Map als Schlüsselfaktor für die Diversitätsbildung in frühen Skalen. Durch Unterdrückung der pivotale Komponente im Modelleingang und deren Verstärkung in der Modellausgabe erschließt DiverseVAR effektiv das inhärente generative Potenzial von VAR-Modellen, während eine hochwertige Synthese erhalten bleibt. Empirische Ergebnisse zeigen, dass unser Ansatz die generative Diversität erheblich steigert bei nur vernachlässigbaren Leistungseinbußen. Unser Code wird unter https://github.com/wangtong627/DiverseVAR öffentlich zugänglich gemacht.
English
Visual Autoregressive (VAR) models have recently garnered significant attention for their innovative next-scale prediction paradigm, offering notable advantages in both inference efficiency and image quality compared to traditional multi-step autoregressive (AR) and diffusion models. However, despite their efficiency, VAR models often suffer from the diversity collapse i.e., a reduction in output variability, analogous to that observed in few-step distilled diffusion models. In this paper, we introduce DiverseVAR, a simple yet effective approach that restores the generative diversity of VAR models without requiring any additional training. Our analysis reveals the pivotal component of the feature map as a key factor governing diversity formation at early scales. By suppressing the pivotal component in the model input and amplifying it in the model output, DiverseVAR effectively unlocks the inherent generative potential of VAR models while preserving high-fidelity synthesis. Empirical results demonstrate that our approach substantially enhances generative diversity with only neglectable performance influences. Our code will be publicly released at https://github.com/wangtong627/DiverseVAR.
PDF62December 1, 2025