시각적 자기회귀 모델이 추론 시간 스케일링에서 확산 모델을 능가한다
Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling
October 19, 2025
저자: Erik Riise, Mehmet Onurcan Kaya, Dim P. Papadopoulos
cs.AI
초록
추론 시간 탐색을 통한 스케일링이 대형 언어 모델에 혁신을 가져왔음에도 불구하고, 이러한 성과를 이미지 생성으로 전환하는 것은 어려운 것으로 입증되었습니다. 최근 연속 확산 모델에 탐색 전략을 적용하려는 시도들은 제한된 이점만을 보여주었으며, 단순한 무작위 샘플링이 종종 최고의 성능을 발휘했습니다. 우리는 시각적 자기회귀 모델의 이산적이고 순차적인 특성이 이미지 생성을 위한 효과적인 탐색을 가능하게 한다는 것을 입증합니다. 빔 탐색이 텍스트-이미지 생성을 크게 개선하여, 2B 파라미터의 자기회귀 모델이 12B 파라미터의 확산 모델을 벤치마크 전반에서 능가할 수 있음을 보여줍니다. 체계적인 제거 실험은 이러한 이점이 이산 토큰 공간에서 비롯되며, 이를 통해 조기 가지치기와 계산 재사용이 가능하다는 것을 보여줍니다. 또한, 검증기 분석은 속도와 추론 능력 사이의 트레이드오프를 강조합니다. 이러한 연구 결과는 시각적 생성에서 추론 시간 최적화를 위해 모델의 규모뿐만 아니라 아키텍처도 중요하다는 것을 시사합니다.
English
While inference-time scaling through search has revolutionized Large Language
Models, translating these gains to image generation has proven difficult.
Recent attempts to apply search strategies to continuous diffusion models show
limited benefits, with simple random sampling often performing best. We
demonstrate that the discrete, sequential nature of visual autoregressive
models enables effective search for image generation. We show that beam search
substantially improves text-to-image generation, enabling a 2B parameter
autoregressive model to outperform a 12B parameter diffusion model across
benchmarks. Systematic ablations show that this advantage comes from the
discrete token space, which allows early pruning and computational reuse, and
our verifier analysis highlights trade-offs between speed and reasoning
capability. These findings suggest that model architecture, not just scale, is
critical for inference-time optimization in visual generation.