ChatPaper.aiChatPaper

시각적 자기회귀 모델에서 다양성은 항상 존재해왔습니다

Diversity Has Always Been There in Your Visual Autoregressive Models

November 21, 2025
저자: Tong Wang, Guanyu Yang, Nian Liu, Kai Wang, Yaxing Wang, Abdelrahman M Shaker, Salman Khan, Fahad Shahbaz Khan, Senmao Li
cs.AI

초록

시각적 자기회귀(VAR) 모델은 최근 혁신적인 다음 스케일 예측 패러다임으로 큰 주목을 받고 있으며, 기존의 다단계 자기회귀(AR) 모델 및 확산 모델 대비 추론 효율성과 화질 측면에서 뚜렷한 장점을 보여주고 있습니다. 그러나 효율성에도 불구하고 VAR 모델은 소수 단계 증류 확산 모델에서 관찰되는 것과 유사하게, 출력 다양성 감소 즉 다양성 붕괴(diversity collapse) 문제를 자주 겪습니다. 본 논문에서는 추가 학습 없이 VAR 모델의 생성 다양성을 회복시키는 간단하면서도 효과적인 접근법인 DiverseVAR를 소개합니다. 우리의 분석에 따르면 초기 스케일에서 다양성 형성을 지배하는 핵심 요소는 특징 맵의 중추 구성요소(pivotal component)로 나타납니다. 모델 입력에서는 이 중추 구성요소를 억제하고 모델 출력에서는 이를 증폭함으로써, DiverseVAR는 높은 정확도의 합성 성능을 유지하면서 VAR 모델의 내재된 생성 잠재력을 효과적으로 해제합니다. 실험 결과는 우리의 접근법이 성능 영향은 무시할 수준에 그치면서 생성 다양성을 크게 향상시킴을 입증합니다. 우리의 코드는 https://github.com/wangtong627/DiverseVAR에서 공개될 예정입니다.
English
Visual Autoregressive (VAR) models have recently garnered significant attention for their innovative next-scale prediction paradigm, offering notable advantages in both inference efficiency and image quality compared to traditional multi-step autoregressive (AR) and diffusion models. However, despite their efficiency, VAR models often suffer from the diversity collapse i.e., a reduction in output variability, analogous to that observed in few-step distilled diffusion models. In this paper, we introduce DiverseVAR, a simple yet effective approach that restores the generative diversity of VAR models without requiring any additional training. Our analysis reveals the pivotal component of the feature map as a key factor governing diversity formation at early scales. By suppressing the pivotal component in the model input and amplifying it in the model output, DiverseVAR effectively unlocks the inherent generative potential of VAR models while preserving high-fidelity synthesis. Empirical results demonstrate that our approach substantially enhances generative diversity with only neglectable performance influences. Our code will be publicly released at https://github.com/wangtong627/DiverseVAR.
PDF62December 1, 2025