Inferentie-Tijd Schaling voor Stroommodellen via Stochastische Generatie en Rollover Budget Forcing
Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing
March 25, 2025
Auteurs: Jaihoon Kim, Taehoon Yoon, Jisung Hwang, Minhyuk Sung
cs.AI
Samenvatting
Wij stellen een schaalbenadering tijdens inferentie voor voor vooraf getrainde flowmodellen. Recentelijk heeft schaling tijdens inferentie aanzienlijke aandacht gekregen in LLM's en diffusiemodellen, waarbij de kwaliteit van samples wordt verbeterd of uitvoeringen beter worden afgestemd op gebruikersvoorkeuren door extra rekenkracht te benutten. Voor diffusiemodellen heeft deeltjesbemonstering efficiëntere schaling mogelijk gemaakt vanwege de stochastiek bij tussenliggende denoisingsstappen. Daarentegen, hoewel flowmodellen populair zijn geworden als alternatief voor diffusiemodellen—vanwege snellere generatie en hoogwaardige uitvoeringen in state-of-the-art beeld- en videogeneratieve modellen—kunnen efficiënte schalingsmethoden tijdens inferentie die voor diffusiemodellen worden gebruikt, niet direct worden toegepast vanwege hun deterministische generatieproces. Om efficiënte schaling tijdens inferentie voor flowmodellen mogelijk te maken, stellen wij drie kernideeën voor: 1) SDE-gebaseerde generatie, waardoor deeltjesbemonstering in flowmodellen mogelijk wordt, 2) Interpolantconversie, die de zoekruimte verbreedt en de diversiteit van samples vergroot, en 3) Rollover Budget Forcing (RBF), een adaptieve toewijzing van rekenbronnen over tijdstappen om het budgetgebruik te maximaliseren. Onze experimenten tonen aan dat SDE-gebaseerde generatie, met name variantiebehoudende (VP) interpolant-gebaseerde generatie, de prestaties van deeltjesbemonsteringsmethoden voor schaling tijdens inferentie in flowmodellen verbetert. Daarnaast laten wij zien dat RBF met VP-SDE de beste prestaties behaalt, en daarmee alle eerdere schalingsbenaderingen tijdens inferentie overtreft.
English
We propose an inference-time scaling approach for pretrained flow models.
Recently, inference-time scaling has gained significant attention in LLMs and
diffusion models, improving sample quality or better aligning outputs with user
preferences by leveraging additional computation. For diffusion models,
particle sampling has allowed more efficient scaling due to the stochasticity
at intermediate denoising steps. On the contrary, while flow models have gained
popularity as an alternative to diffusion models--offering faster generation
and high-quality outputs in state-of-the-art image and video generative
models--efficient inference-time scaling methods used for diffusion models
cannot be directly applied due to their deterministic generative process. To
enable efficient inference-time scaling for flow models, we propose three key
ideas: 1) SDE-based generation, enabling particle sampling in flow models, 2)
Interpolant conversion, broadening the search space and enhancing sample
diversity, and 3) Rollover Budget Forcing (RBF), an adaptive allocation of
computational resources across timesteps to maximize budget utilization. Our
experiments show that SDE-based generation, particularly variance-preserving
(VP) interpolant-based generation, improves the performance of particle
sampling methods for inference-time scaling in flow models. Additionally, we
demonstrate that RBF with VP-SDE achieves the best performance, outperforming
all previous inference-time scaling approaches.Summary
AI-Generated Summary