Los Modelos Autoregresivos Visuales Superan a los Modelos de Difusión en la Escalabilidad del Tiempo de Inferencia

Resumen

Si bien el escalado en tiempo de inferencia mediante búsqueda ha revolucionado los Modelos de Lenguaje de Gran Escala, trasladar estos avances a la generación de imágenes ha resultado difícil. Intentos recientes de aplicar estrategias de búsqueda a modelos de difusión continua muestran beneficios limitados, con un muestreo aleatorio simple que a menudo funciona mejor. Demostramos que la naturaleza discreta y secuencial de los modelos autoregresivos visuales permite una búsqueda efectiva para la generación de imágenes. Mostramos que la búsqueda por haz mejora sustancialmente la generación de texto a imagen, permitiendo que un modelo autoregresivo de 2 mil millones de parámetros supere a un modelo de difusión de 12 mil millones de parámetros en diversos benchmarks. Las ablaciones sistemáticas muestran que esta ventaja proviene del espacio de tokens discreto, que permite la poda temprana y la reutilización computacional, y nuestro análisis de verificadores destaca las compensaciones entre velocidad y capacidad de razonamiento. Estos hallazgos sugieren que la arquitectura del modelo, no solo la escala, es crítica para la optimización en tiempo de inferencia en la generación visual.

English

While inference-time scaling through search has revolutionized Large Language Models, translating these gains to image generation has proven difficult. Recent attempts to apply search strategies to continuous diffusion models show limited benefits, with simple random sampling often performing best. We demonstrate that the discrete, sequential nature of visual autoregressive models enables effective search for image generation. We show that beam search substantially improves text-to-image generation, enabling a 2B parameter autoregressive model to outperform a 12B parameter diffusion model across benchmarks. Systematic ablations show that this advantage comes from the discrete token space, which allows early pruning and computational reuse, and our verifier analysis highlights trade-offs between speed and reasoning capability. These findings suggest that model architecture, not just scale, is critical for inference-time optimization in visual generation.

Los Modelos Autoregresivos Visuales Superan a los Modelos de Difusión en la Escalabilidad del Tiempo de Inferencia

Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling

Resumen

Support