視覚的自回帰モデルが推論時間のスケーリングにおいて拡散モデルを上回る
Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling
October 19, 2025
著者: Erik Riise, Mehmet Onurcan Kaya, Dim P. Papadopoulos
cs.AI
要旨
推論時の探索によるスケーリングは大規模言語モデルに革命をもたらしましたが、これらの成果を画像生成に応用することは困難でした。連続的な拡散モデルに探索戦略を適用する最近の試みでは、単純なランダムサンプリングがしばしば最良の結果を示すなど、限定的な効果しか得られていません。本研究では、視覚的自回帰モデルの離散的で逐次的な性質が、画像生成における効果的な探索を可能にすることを実証します。ビームサーチがテキストから画像への生成を大幅に改善し、2Bパラメータの自回帰モデルが12Bパラメータの拡散モデルをベンチマーク全体で上回ることを示します。体系的なアブレーション研究により、この優位性は離散的トークン空間による早期の枝刈りと計算の再利用から生じることが明らかになり、検証器分析では速度と推論能力のトレードオフが浮き彫りになりました。これらの発見は、視覚生成における推論時の最適化には、スケールだけでなくモデルアーキテクチャが重要であることを示唆しています。
English
While inference-time scaling through search has revolutionized Large Language
Models, translating these gains to image generation has proven difficult.
Recent attempts to apply search strategies to continuous diffusion models show
limited benefits, with simple random sampling often performing best. We
demonstrate that the discrete, sequential nature of visual autoregressive
models enables effective search for image generation. We show that beam search
substantially improves text-to-image generation, enabling a 2B parameter
autoregressive model to outperform a 12B parameter diffusion model across
benchmarks. Systematic ablations show that this advantage comes from the
discrete token space, which allows early pruning and computational reuse, and
our verifier analysis highlights trade-offs between speed and reasoning
capability. These findings suggest that model architecture, not just scale, is
critical for inference-time optimization in visual generation.