ChatPaper.aiChatPaper

Визуальные авторегрессионные модели превосходят диффузионные модели по масштабируемости времени вывода

Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling

October 19, 2025
Авторы: Erik Riise, Mehmet Onurcan Kaya, Dim P. Papadopoulos
cs.AI

Аннотация

Хотя масштабирование во время вывода с использованием поиска произвело революцию в больших языковых моделях, перенести эти достижения на генерацию изображений оказалось сложно. Недавние попытки применить стратегии поиска к непрерывным диффузионным моделям показали ограниченные преимущества, причем простой случайный выбор часто оказывается наиболее эффективным. Мы демонстрируем, что дискретная, последовательная природа визуальных авторегрессионных моделей позволяет эффективно использовать поиск для генерации изображений. Мы показываем, что поиск по лучу значительно улучшает генерацию изображений по тексту, позволяя авторегрессионной модели с 2 миллиардами параметров превзойти диффузионную модель с 12 миллиардами параметров в различных тестах. Систематические исследования показывают, что это преимущество связано с дискретным пространством токенов, которое позволяет раннее отсечение и повторное использование вычислений, а наш анализ верификатора подчеркивает компромиссы между скоростью и способностью к рассуждению. Эти результаты указывают на то, что архитектура модели, а не только масштаб, играет ключевую роль в оптимизации вывода в визуальной генерации.
English
While inference-time scaling through search has revolutionized Large Language Models, translating these gains to image generation has proven difficult. Recent attempts to apply search strategies to continuous diffusion models show limited benefits, with simple random sampling often performing best. We demonstrate that the discrete, sequential nature of visual autoregressive models enables effective search for image generation. We show that beam search substantially improves text-to-image generation, enabling a 2B parameter autoregressive model to outperform a 12B parameter diffusion model across benchmarks. Systematic ablations show that this advantage comes from the discrete token space, which allows early pruning and computational reuse, and our verifier analysis highlights trade-offs between speed and reasoning capability. These findings suggest that model architecture, not just scale, is critical for inference-time optimization in visual generation.
PDF192October 21, 2025