Modelos Autoregressivos Visuais Superam Modelos de Difusão no Escalonamento de Tempo de Inferência

Resumo

Embora o dimensionamento no tempo de inferência por meio de busca tenha revolucionado os Modelos de Linguagem de Grande Escala (LLMs), traduzir esses ganhos para a geração de imagens tem se mostrado difícil. Tentativas recentes de aplicar estratégias de busca a modelos de difusão contínua mostram benefícios limitados, com a amostragem aleatória simples frequentemente apresentando o melhor desempenho. Demonstramos que a natureza discreta e sequencial dos modelos autoregressivos visuais permite uma busca eficaz para a geração de imagens. Mostramos que a busca em feixe (beam search) melhora substancialmente a geração de texto para imagem, permitindo que um modelo autoregressivo de 2 bilhões de parâmetros supere um modelo de difusão de 12 bilhões de parâmetros em benchmarks. Ablações sistemáticas mostram que essa vantagem vem do espaço de tokens discreto, que permite a poda antecipada e a reutilização computacional, e nossa análise de verificadores destaca as compensações entre velocidade e capacidade de raciocínio. Essas descobertas sugerem que a arquitetura do modelo, e não apenas a escala, é crucial para a otimização no tempo de inferência na geração visual.

English

While inference-time scaling through search has revolutionized Large Language Models, translating these gains to image generation has proven difficult. Recent attempts to apply search strategies to continuous diffusion models show limited benefits, with simple random sampling often performing best. We demonstrate that the discrete, sequential nature of visual autoregressive models enables effective search for image generation. We show that beam search substantially improves text-to-image generation, enabling a 2B parameter autoregressive model to outperform a 12B parameter diffusion model across benchmarks. Systematic ablations show that this advantage comes from the discrete token space, which allows early pruning and computational reuse, and our verifier analysis highlights trade-offs between speed and reasoning capability. These findings suggest that model architecture, not just scale, is critical for inference-time optimization in visual generation.

Modelos Autoregressivos Visuais Superam Modelos de Difusão no Escalonamento de Tempo de Inferência

Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling

Resumo

Support