Разнообразие всегда присутствовало в ваших визуальных авторегрессионных моделях.
Diversity Has Always Been There in Your Visual Autoregressive Models
November 21, 2025
Авторы: Tong Wang, Guanyu Yang, Nian Liu, Kai Wang, Yaxing Wang, Abdelrahman M Shaker, Salman Khan, Fahad Shahbaz Khan, Senmao Li
cs.AI
Аннотация
Визуальные авторегрессионные модели (VAR) недавно привлекли значительное внимание благодаря инновационной парадигме прогнозирования на следующем масштабе, демонстрируя заметные преимущества как в эффективности вывода, так и в качестве изображений по сравнению с традиционными многошаговыми авторегрессионными (AR) моделями и моделями диффузии. Однако, несмотря на свою эффективность, VAR-модели часто страдают от коллапса разнообразия, то есть снижения вариативности выходных данных, аналогичного наблюдаемому в диффузионных моделях с дистилляцией за малое число шагов. В данной статье мы представляем DiverseVAR — простой, но эффективный метод, который восстанавливает генеративное разнообразие VAR-моделей без необходимости какого-либо дополнительного обучения. Наш анализ выявляет ключевой компонент карты признаков как решающий фактор формирования разнообразия на ранних масштабах. Подавляя ключевой компонент на входе модели и усиливая его на выходе, DiverseVAR эффективно раскрывает inherentный генеративный потенциал VAR-моделей, сохраняя при этом синтез высокой точности. Экспериментальные результаты показывают, что наш подход существенно повышает генеративное разнообразие при лишь незначительном влиянии на производительность. Наш код будет общедоступен по адресу https://github.com/wangtong627/DiverseVAR.
English
Visual Autoregressive (VAR) models have recently garnered significant attention for their innovative next-scale prediction paradigm, offering notable advantages in both inference efficiency and image quality compared to traditional multi-step autoregressive (AR) and diffusion models. However, despite their efficiency, VAR models often suffer from the diversity collapse i.e., a reduction in output variability, analogous to that observed in few-step distilled diffusion models. In this paper, we introduce DiverseVAR, a simple yet effective approach that restores the generative diversity of VAR models without requiring any additional training. Our analysis reveals the pivotal component of the feature map as a key factor governing diversity formation at early scales. By suppressing the pivotal component in the model input and amplifying it in the model output, DiverseVAR effectively unlocks the inherent generative potential of VAR models while preserving high-fidelity synthesis. Empirical results demonstrate that our approach substantially enhances generative diversity with only neglectable performance influences. Our code will be publicly released at https://github.com/wangtong627/DiverseVAR.