ChatPaper.aiChatPaper

A Diversidade Sempre Esteve Presente em Seus Modelos Autoregressivos Visuais

Diversity Has Always Been There in Your Visual Autoregressive Models

November 21, 2025
Autores: Tong Wang, Guanyu Yang, Nian Liu, Kai Wang, Yaxing Wang, Abdelrahman M Shaker, Salman Khan, Fahad Shahbaz Khan, Senmao Li
cs.AI

Resumo

Os modelos Visuais Autorregressivos (VAR) têm recentemente atraído significativa atenção devido ao seu paradigma inovador de previsão em escala seguinte, oferecendo vantagens notáveis em eficiência de inferência e qualidade de imagem em comparação com modelos autorregressivos (AR) multiestágios tradicionais e modelos de difusão. Contudo, apesar da sua eficiência, os modelos VAR frequentemente sofrem de colapso de diversidade, ou seja, uma redução na variabilidade de saída, análoga à observada em modelos de difusão destilados com poucos passos. Neste artigo, introduzimos o DiverseVAR, uma abordagem simples mas eficaz que restaura a diversidade generativa dos modelos VAR sem exigir qualquer treinamento adicional. Nossa análise revela o componente pivotal do mapa de características como um fator chave que governa a formação da diversidade em escalas iniciais. Ao suprimir o componente pivotal na entrada do modelo e amplificá-lo na saída do modelo, o DiverseVAR efetivamente desbloqueia o potencial generativo inerente dos modelos VAR, preservando simultaneamente a síntese de alta fidelidade. Resultados empíricos demonstram que nossa abordagem aumenta substancialmente a diversidade generativa com influências de desempenho insignificantes. Nosso código será disponibilizado publicamente em https://github.com/wangtong627/DiverseVAR.
English
Visual Autoregressive (VAR) models have recently garnered significant attention for their innovative next-scale prediction paradigm, offering notable advantages in both inference efficiency and image quality compared to traditional multi-step autoregressive (AR) and diffusion models. However, despite their efficiency, VAR models often suffer from the diversity collapse i.e., a reduction in output variability, analogous to that observed in few-step distilled diffusion models. In this paper, we introduce DiverseVAR, a simple yet effective approach that restores the generative diversity of VAR models without requiring any additional training. Our analysis reveals the pivotal component of the feature map as a key factor governing diversity formation at early scales. By suppressing the pivotal component in the model input and amplifying it in the model output, DiverseVAR effectively unlocks the inherent generative potential of VAR models while preserving high-fidelity synthesis. Empirical results demonstrate that our approach substantially enhances generative diversity with only neglectable performance influences. Our code will be publicly released at https://github.com/wangtong627/DiverseVAR.
PDF82February 27, 2026