ChatPaper.aiChatPaper

La diversité a toujours été présente dans vos modèles visuels autorégressifs

Diversity Has Always Been There in Your Visual Autoregressive Models

November 21, 2025
papers.authors: Tong Wang, Guanyu Yang, Nian Liu, Kai Wang, Yaxing Wang, Abdelrahman M Shaker, Salman Khan, Fahad Shahbaz Khan, Senmao Li
cs.AI

papers.abstract

Les modèles autoregressifs visuels (VAR) ont récemment suscité une attention considérable pour leur paradigme innovant de prédiction à l'échelle suivante, offrant des avantages notables en efficacité d'inférence et en qualité d'image par rapport aux modèles autoregressifs multi-étapes (AR) et aux modèles de diffusion traditionnels. Cependant, malgré leur efficacité, les modèles VAR souffrent souvent d'un effondrement de la diversité, c'est-à-dire une réduction de la variabilité des sorties, analogue à celle observée dans les modèles de diffusion distilés en peu d'étapes. Dans cet article, nous présentons DiverseVAR, une approche simple mais efficace qui restaure la diversité générative des modèles VAR sans nécessiter d'entraînement supplémentaire. Notre analyse révèle que la composante pivotale de la carte de caractéristiques est un facteur clé gouvernant la formation de la diversité aux échelles précoces. En supprimant la composante pivotale dans l'entrée du modèle et en l'amplifiant dans sa sortie, DiverseVAR déverrouille efficacement le potentiel génératif inhérent des modèles VAR tout en préservant une synthèse de haute fidélité. Les résultats empiriques démontrent que notre approche améliore substantiellement la diversité générative avec des influences négligeables sur les performances. Notre code sera publiquement disponible sur https://github.com/wangtong627/DiverseVAR.
English
Visual Autoregressive (VAR) models have recently garnered significant attention for their innovative next-scale prediction paradigm, offering notable advantages in both inference efficiency and image quality compared to traditional multi-step autoregressive (AR) and diffusion models. However, despite their efficiency, VAR models often suffer from the diversity collapse i.e., a reduction in output variability, analogous to that observed in few-step distilled diffusion models. In this paper, we introduce DiverseVAR, a simple yet effective approach that restores the generative diversity of VAR models without requiring any additional training. Our analysis reveals the pivotal component of the feature map as a key factor governing diversity formation at early scales. By suppressing the pivotal component in the model input and amplifying it in the model output, DiverseVAR effectively unlocks the inherent generative potential of VAR models while preserving high-fidelity synthesis. Empirical results demonstrate that our approach substantially enhances generative diversity with only neglectable performance influences. Our code will be publicly released at https://github.com/wangtong627/DiverseVAR.
PDF62December 1, 2025