La Diversidad Siempre Ha Estado Presente en Tus Modelos Autoregresivos Visuales
Diversity Has Always Been There in Your Visual Autoregressive Models
November 21, 2025
Autores: Tong Wang, Guanyu Yang, Nian Liu, Kai Wang, Yaxing Wang, Abdelrahman M Shaker, Salman Khan, Fahad Shahbaz Khan, Senmao Li
cs.AI
Resumen
Los modelos visuales autorregresivos (VAR) han captado reciente atención significativa por su innovador paradigma de predicción a siguiente escala, ofreciendo ventajas notables en eficiencia de inferencia y calidad de imagen comparados con los modelos autorregresivos (AR) multietapa tradicionales y los modelos de difusión. Sin embargo, a pesar de su eficiencia, los modelos VAR a menudo sufren de colapso de diversidad, es decir, una reducción en la variabilidad de salida, análoga a la observada en modelos de difusión destilados de pocos pasos. En este artículo, presentamos DiverseVAR, un enfoque simple pero efectivo que restaura la diversidad generativa de los modelos VAR sin requerir entrenamiento adicional. Nuestro análisis revela el componente pivotal del mapa de características como un factor clave que gobierna la formación de diversidad en las escalas tempranas. Al suprimir el componente pivotal en la entrada del modelo y amplificarlo en la salida del modelo, DiverseVAR efectivamente libera el potencial generativo inherente de los modelos VAR mientras preserva una síntesis de alta fidelidad. Los resultados empíricos demuestran que nuestro enfoque mejora sustancialmente la diversidad generativa con influencias en el rendimiento apenas perceptibles. Nuestro código será publicado públicamente en https://github.com/wangtong627/DiverseVAR.
English
Visual Autoregressive (VAR) models have recently garnered significant attention for their innovative next-scale prediction paradigm, offering notable advantages in both inference efficiency and image quality compared to traditional multi-step autoregressive (AR) and diffusion models. However, despite their efficiency, VAR models often suffer from the diversity collapse i.e., a reduction in output variability, analogous to that observed in few-step distilled diffusion models. In this paper, we introduce DiverseVAR, a simple yet effective approach that restores the generative diversity of VAR models without requiring any additional training. Our analysis reveals the pivotal component of the feature map as a key factor governing diversity formation at early scales. By suppressing the pivotal component in the model input and amplifying it in the model output, DiverseVAR effectively unlocks the inherent generative potential of VAR models while preserving high-fidelity synthesis. Empirical results demonstrate that our approach substantially enhances generative diversity with only neglectable performance influences. Our code will be publicly released at https://github.com/wangtong627/DiverseVAR.