ChatPaper.aiChatPaper

La diversità è sempre stata presente nei vostri modelli autoregressivi visivi.

Diversity Has Always Been There in Your Visual Autoregressive Models

November 21, 2025
Autori: Tong Wang, Guanyu Yang, Nian Liu, Kai Wang, Yaxing Wang, Abdelrahman M Shaker, Salman Khan, Fahad Shahbaz Khan, Senmao Li
cs.AI

Abstract

I modelli autoregressivi visivi (VAR) hanno recentemente attirato notevole attenzione per il loro innovativo paradigma di predizione a scala successiva, offrendo vantaggi significativi sia nell'efficienza inferenziale che nella qualità dell'immagine rispetto ai tradizionali modelli autoregressivi (AR) multi-step e ai modelli di diffusione. Tuttavia, nonostante la loro efficienza, i modelli VAR soffrono spesso di un collasso della diversità, ovvero una riduzione della variabilità degli output, analoga a quella osservata nei modelli di diffusione distillati a pochi step. In questo articolo, introduciamo DiverseVAR, un approccio semplice ma efficace che ripristina la diversità generativa dei modelli VAR senza richiedere alcun addestramento aggiuntivo. La nostra analisi rivela che la componente pivot della mappa delle caratteristiche è un fattore chiave che governa la formazione della diversità nelle scale iniziali. Sopprimendo la componente pivot nell'input del modello e amplificandola nell'output del modello, DiverseVAR sblocca efficacemente il potenziale generativo intrinseco dei modelli VAR preservando al contempo una sintesi di alta fedeltà. I risultati empirici dimostrano che il nostro approccio migliora sostanzialmente la diversità generativa con influenze prestazionali trascurabili. Il nostro codice sarà pubblicamente rilasciato all'indirizzo https://github.com/wangtong627/DiverseVAR.
English
Visual Autoregressive (VAR) models have recently garnered significant attention for their innovative next-scale prediction paradigm, offering notable advantages in both inference efficiency and image quality compared to traditional multi-step autoregressive (AR) and diffusion models. However, despite their efficiency, VAR models often suffer from the diversity collapse i.e., a reduction in output variability, analogous to that observed in few-step distilled diffusion models. In this paper, we introduce DiverseVAR, a simple yet effective approach that restores the generative diversity of VAR models without requiring any additional training. Our analysis reveals the pivotal component of the feature map as a key factor governing diversity formation at early scales. By suppressing the pivotal component in the model input and amplifying it in the model output, DiverseVAR effectively unlocks the inherent generative potential of VAR models while preserving high-fidelity synthesis. Empirical results demonstrate that our approach substantially enhances generative diversity with only neglectable performance influences. Our code will be publicly released at https://github.com/wangtong627/DiverseVAR.
PDF62December 1, 2025