Modelos Autoregressivos Visuais Superam Modelos de Difusão no Escalonamento de Tempo de Inferência
Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling
October 19, 2025
Autores: Erik Riise, Mehmet Onurcan Kaya, Dim P. Papadopoulos
cs.AI
Resumo
Embora o dimensionamento no tempo de inferência por meio de busca tenha revolucionado os Modelos de Linguagem de Grande Escala (LLMs), traduzir esses ganhos para a geração de imagens tem se mostrado difícil. Tentativas recentes de aplicar estratégias de busca a modelos de difusão contínua mostram benefícios limitados, com a amostragem aleatória simples frequentemente apresentando o melhor desempenho. Demonstramos que a natureza discreta e sequencial dos modelos autoregressivos visuais permite uma busca eficaz para a geração de imagens. Mostramos que a busca em feixe (beam search) melhora substancialmente a geração de texto para imagem, permitindo que um modelo autoregressivo de 2 bilhões de parâmetros supere um modelo de difusão de 12 bilhões de parâmetros em benchmarks. Ablações sistemáticas mostram que essa vantagem vem do espaço de tokens discreto, que permite a poda antecipada e a reutilização computacional, e nossa análise de verificadores destaca as compensações entre velocidade e capacidade de raciocínio. Essas descobertas sugerem que a arquitetura do modelo, e não apenas a escala, é crucial para a otimização no tempo de inferência na geração visual.
English
While inference-time scaling through search has revolutionized Large Language
Models, translating these gains to image generation has proven difficult.
Recent attempts to apply search strategies to continuous diffusion models show
limited benefits, with simple random sampling often performing best. We
demonstrate that the discrete, sequential nature of visual autoregressive
models enables effective search for image generation. We show that beam search
substantially improves text-to-image generation, enabling a 2B parameter
autoregressive model to outperform a 12B parameter diffusion model across
benchmarks. Systematic ablations show that this advantage comes from the
discrete token space, which allows early pruning and computational reuse, and
our verifier analysis highlights trade-offs between speed and reasoning
capability. These findings suggest that model architecture, not just scale, is
critical for inference-time optimization in visual generation.