Visuele Autoregressieve Modellen Verslaan Diffusiemodellen in Schaalbaarheid van Inferentietijd
Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling
October 19, 2025
Auteurs: Erik Riise, Mehmet Onurcan Kaya, Dim P. Papadopoulos
cs.AI
Samenvatting
Hoewel schaling tijdens inferentie door middel van zoekstrategieën een revolutie teweeg heeft gebracht in grote taalmodellen, is het vertalen van deze vooruitgang naar beeldgeneratie moeilijk gebleken. Recente pogingen om zoekstrategieën toe te passen op continue diffusiemodellen laten beperkte voordelen zien, waarbij eenvoudige willekeurige steekproefname vaak het beste presteert. Wij tonen aan dat het discrete, sequentiële karakter van visuele autoregressieve modellen effectief zoeken voor beeldgeneratie mogelijk maakt. We laten zien dat beam search de tekst-naar-beeldgeneratie aanzienlijk verbetert, waardoor een autoregressief model met 2B parameters een diffusiemodel met 12B parameters overtreft op benchmarks. Systematische ablatieonderzoeken tonen aan dat dit voordeel voortkomt uit de discrete tokenruimte, die vroege snoei en hergebruik van berekeningen mogelijk maakt, en onze verifier-analyse benadrukt de afwegingen tussen snelheid en redeneervermogen. Deze bevindingen suggereren dat modelarchitectuur, niet alleen schaal, cruciaal is voor optimalisatie tijdens inferentie in visuele generatie.
English
While inference-time scaling through search has revolutionized Large Language
Models, translating these gains to image generation has proven difficult.
Recent attempts to apply search strategies to continuous diffusion models show
limited benefits, with simple random sampling often performing best. We
demonstrate that the discrete, sequential nature of visual autoregressive
models enables effective search for image generation. We show that beam search
substantially improves text-to-image generation, enabling a 2B parameter
autoregressive model to outperform a 12B parameter diffusion model across
benchmarks. Systematic ablations show that this advantage comes from the
discrete token space, which allows early pruning and computational reuse, and
our verifier analysis highlights trade-offs between speed and reasoning
capability. These findings suggest that model architecture, not just scale, is
critical for inference-time optimization in visual generation.