Visuele Autoregressieve Modellen Verslaan Diffusiemodellen in Schaalbaarheid van Inferentietijd

Samenvatting

Hoewel schaling tijdens inferentie door middel van zoekstrategieën een revolutie teweeg heeft gebracht in grote taalmodellen, is het vertalen van deze vooruitgang naar beeldgeneratie moeilijk gebleken. Recente pogingen om zoekstrategieën toe te passen op continue diffusiemodellen laten beperkte voordelen zien, waarbij eenvoudige willekeurige steekproefname vaak het beste presteert. Wij tonen aan dat het discrete, sequentiële karakter van visuele autoregressieve modellen effectief zoeken voor beeldgeneratie mogelijk maakt. We laten zien dat beam search de tekst-naar-beeldgeneratie aanzienlijk verbetert, waardoor een autoregressief model met 2B parameters een diffusiemodel met 12B parameters overtreft op benchmarks. Systematische ablatieonderzoeken tonen aan dat dit voordeel voortkomt uit de discrete tokenruimte, die vroege snoei en hergebruik van berekeningen mogelijk maakt, en onze verifier-analyse benadrukt de afwegingen tussen snelheid en redeneervermogen. Deze bevindingen suggereren dat modelarchitectuur, niet alleen schaal, cruciaal is voor optimalisatie tijdens inferentie in visuele generatie.

English

While inference-time scaling through search has revolutionized Large Language Models, translating these gains to image generation has proven difficult. Recent attempts to apply search strategies to continuous diffusion models show limited benefits, with simple random sampling often performing best. We demonstrate that the discrete, sequential nature of visual autoregressive models enables effective search for image generation. We show that beam search substantially improves text-to-image generation, enabling a 2B parameter autoregressive model to outperform a 12B parameter diffusion model across benchmarks. Systematic ablations show that this advantage comes from the discrete token space, which allows early pruning and computational reuse, and our verifier analysis highlights trade-offs between speed and reasoning capability. These findings suggest that model architecture, not just scale, is critical for inference-time optimization in visual generation.

Visuele Autoregressieve Modellen Verslaan Diffusiemodellen in Schaalbaarheid van Inferentietijd

Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling

Samenvatting

Support