Los Modelos Autoregresivos Visuales Superan a los Modelos de Difusión en la Escalabilidad del Tiempo de Inferencia
Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling
October 19, 2025
Autores: Erik Riise, Mehmet Onurcan Kaya, Dim P. Papadopoulos
cs.AI
Resumen
Si bien el escalado en tiempo de inferencia mediante búsqueda ha revolucionado los Modelos de Lenguaje de Gran Escala, trasladar estos avances a la generación de imágenes ha resultado difícil. Intentos recientes de aplicar estrategias de búsqueda a modelos de difusión continua muestran beneficios limitados, con un muestreo aleatorio simple que a menudo funciona mejor. Demostramos que la naturaleza discreta y secuencial de los modelos autoregresivos visuales permite una búsqueda efectiva para la generación de imágenes. Mostramos que la búsqueda por haz mejora sustancialmente la generación de texto a imagen, permitiendo que un modelo autoregresivo de 2 mil millones de parámetros supere a un modelo de difusión de 12 mil millones de parámetros en diversos benchmarks. Las ablaciones sistemáticas muestran que esta ventaja proviene del espacio de tokens discreto, que permite la poda temprana y la reutilización computacional, y nuestro análisis de verificadores destaca las compensaciones entre velocidad y capacidad de razonamiento. Estos hallazgos sugieren que la arquitectura del modelo, no solo la escala, es crítica para la optimización en tiempo de inferencia en la generación visual.
English
While inference-time scaling through search has revolutionized Large Language
Models, translating these gains to image generation has proven difficult.
Recent attempts to apply search strategies to continuous diffusion models show
limited benefits, with simple random sampling often performing best. We
demonstrate that the discrete, sequential nature of visual autoregressive
models enables effective search for image generation. We show that beam search
substantially improves text-to-image generation, enabling a 2B parameter
autoregressive model to outperform a 12B parameter diffusion model across
benchmarks. Systematic ablations show that this advantage comes from the
discrete token space, which allows early pruning and computational reuse, and
our verifier analysis highlights trade-offs between speed and reasoning
capability. These findings suggest that model architecture, not just scale, is
critical for inference-time optimization in visual generation.