Масштабирование во время вывода для потоковых моделей с использованием стохастической генерации и принудительного распределения бюджета перехода
Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing
March 25, 2025
Авторы: Jaihoon Kim, Taehoon Yoon, Jisung Hwang, Minhyuk Sung
cs.AI
Аннотация
Мы предлагаем подход масштабирования на этапе вывода для предобученных моделей потоков. В последнее время масштабирование на этапе вывода привлекло значительное внимание в крупных языковых моделях (LLM) и моделях диффузии, улучшая качество выборок или лучше согласовывая выходные данные с предпочтениями пользователей за счет использования дополнительных вычислений. Для моделей диффузии выборка частиц позволила более эффективное масштабирование благодаря стохастичности на промежуточных этапах удаления шума. В то же время, хотя модели потоков приобрели популярность как альтернатива моделям диффузии — предлагая более быструю генерацию и высококачественные результаты в современных моделях генерации изображений и видео — эффективные методы масштабирования на этапе вывода, используемые для моделей диффузии, не могут быть напрямую применены из-за их детерминированного процесса генерации. Чтобы обеспечить эффективное масштабирование на этапе вывода для моделей потоков, мы предлагаем три ключевые идеи: 1) генерацию на основе стохастических дифференциальных уравнений (SDE), позволяющую выборку частиц в моделях потоков, 2) преобразование интерполянтов, расширяющее пространство поиска и повышающее разнообразие выборок, и 3) принудительное распределение бюджета (Rollover Budget Forcing, RBF) — адаптивное распределение вычислительных ресурсов по временным шагам для максимизации использования бюджета. Наши эксперименты показывают, что генерация на основе SDE, в частности генерация на основе интерполянтов с сохранением дисперсии (VP), улучшает производительность методов выборки частиц для масштабирования на этапе вывода в моделях потоков. Кроме того, мы демонстрируем, что RBF в сочетании с VP-SDE достигает наилучшей производительности, превосходя все предыдущие подходы к масштабированию на этапе вывода.
English
We propose an inference-time scaling approach for pretrained flow models.
Recently, inference-time scaling has gained significant attention in LLMs and
diffusion models, improving sample quality or better aligning outputs with user
preferences by leveraging additional computation. For diffusion models,
particle sampling has allowed more efficient scaling due to the stochasticity
at intermediate denoising steps. On the contrary, while flow models have gained
popularity as an alternative to diffusion models--offering faster generation
and high-quality outputs in state-of-the-art image and video generative
models--efficient inference-time scaling methods used for diffusion models
cannot be directly applied due to their deterministic generative process. To
enable efficient inference-time scaling for flow models, we propose three key
ideas: 1) SDE-based generation, enabling particle sampling in flow models, 2)
Interpolant conversion, broadening the search space and enhancing sample
diversity, and 3) Rollover Budget Forcing (RBF), an adaptive allocation of
computational resources across timesteps to maximize budget utilization. Our
experiments show that SDE-based generation, particularly variance-preserving
(VP) interpolant-based generation, improves the performance of particle
sampling methods for inference-time scaling in flow models. Additionally, we
demonstrate that RBF with VP-SDE achieves the best performance, outperforming
all previous inference-time scaling approaches.Summary
AI-Generated Summary