Escalonamento em Tempo de Inferência para Modelos de Fluxo via Geração Estocástica e Forçamento de Orçamento de Rollover
Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing
March 25, 2025
Autores: Jaihoon Kim, Taehoon Yoon, Jisung Hwang, Minhyuk Sung
cs.AI
Resumo
Propomos uma abordagem de escalonamento durante a inferência para modelos de fluxo pré-treinados. Recentemente, o escalonamento durante a inferência tem ganhado atenção significativa em LLMs e modelos de difusão, melhorando a qualidade das amostras ou alinhando melhor as saídas com as preferências do usuário ao aproveitar computação adicional. Para modelos de difusão, a amostragem de partículas permitiu um escalonamento mais eficiente devido à estocasticidade nas etapas intermediárias de remoção de ruído. Por outro lado, embora os modelos de fluxo tenham ganhado popularidade como uma alternativa aos modelos de difusão—oferecendo geração mais rápida e saídas de alta qualidade em modelos generativos de última geração para imagens e vídeos—métodos eficientes de escalonamento durante a inferência usados em modelos de difusão não podem ser aplicados diretamente devido ao seu processo generativo determinístico. Para permitir um escalonamento eficiente durante a inferência em modelos de fluxo, propomos três ideias principais: 1) Geração baseada em EDEs (Equações Diferenciais Estocásticas), permitindo a amostragem de partículas em modelos de fluxo, 2) Conversão de Interpolantes, ampliando o espaço de busca e aumentando a diversidade das amostras, e 3) Forçamento de Orçamento de Rollover (RBF), uma alocação adaptativa de recursos computacionais ao longo das etapas temporais para maximizar a utilização do orçamento. Nossos experimentos mostram que a geração baseada em EDEs, particularmente a geração baseada em interpolantes de preservação de variância (VP), melhora o desempenho dos métodos de amostragem de partículas para escalonamento durante a inferência em modelos de fluxo. Além disso, demonstramos que o RBF com EDE-VP alcança o melhor desempenho, superando todas as abordagens anteriores de escalonamento durante a inferência.
English
We propose an inference-time scaling approach for pretrained flow models.
Recently, inference-time scaling has gained significant attention in LLMs and
diffusion models, improving sample quality or better aligning outputs with user
preferences by leveraging additional computation. For diffusion models,
particle sampling has allowed more efficient scaling due to the stochasticity
at intermediate denoising steps. On the contrary, while flow models have gained
popularity as an alternative to diffusion models--offering faster generation
and high-quality outputs in state-of-the-art image and video generative
models--efficient inference-time scaling methods used for diffusion models
cannot be directly applied due to their deterministic generative process. To
enable efficient inference-time scaling for flow models, we propose three key
ideas: 1) SDE-based generation, enabling particle sampling in flow models, 2)
Interpolant conversion, broadening the search space and enhancing sample
diversity, and 3) Rollover Budget Forcing (RBF), an adaptive allocation of
computational resources across timesteps to maximize budget utilization. Our
experiments show that SDE-based generation, particularly variance-preserving
(VP) interpolant-based generation, improves the performance of particle
sampling methods for inference-time scaling in flow models. Additionally, we
demonstrate that RBF with VP-SDE achieves the best performance, outperforming
all previous inference-time scaling approaches.Summary
AI-Generated Summary