ChatPaper.aiChatPaper

Escalado en Tiempo de Inferencia para Modelos de Flujo mediante Generación Estocástica y Forzado de Presupuesto de Rollover

Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing

March 25, 2025
Autores: Jaihoon Kim, Taehoon Yoon, Jisung Hwang, Minhyuk Sung
cs.AI

Resumen

Proponemos un enfoque de escalado en tiempo de inferencia para modelos de flujo preentrenados. Recientemente, el escalado en tiempo de inferencia ha ganado una atención significativa en los LLM y modelos de difusión, mejorando la calidad de las muestras o alineando mejor las salidas con las preferencias del usuario al aprovechar cálculos adicionales. Para los modelos de difusión, el muestreo de partículas ha permitido un escalado más eficiente debido a la estocasticidad en los pasos intermedios de eliminación de ruido. Por el contrario, aunque los modelos de flujo han ganado popularidad como una alternativa a los modelos de difusión—ofreciendo una generación más rápida y salidas de alta calidad en modelos generativos de imágenes y videos de última generación—los métodos eficientes de escalado en tiempo de inferencia utilizados para modelos de difusión no pueden aplicarse directamente debido a su proceso generativo determinista. Para habilitar un escalado eficiente en tiempo de inferencia para modelos de flujo, proponemos tres ideas clave: 1) Generación basada en EDE, permitiendo el muestreo de partículas en modelos de flujo, 2) Conversión de interpolantes, ampliando el espacio de búsqueda y mejorando la diversidad de muestras, y 3) Forzado de Presupuesto de Rollover (RBF), una asignación adaptativa de recursos computacionales a lo largo de los pasos de tiempo para maximizar la utilización del presupuesto. Nuestros experimentos muestran que la generación basada en EDE, particularmente la generación basada en interpolantes de preservación de varianza (VP), mejora el rendimiento de los métodos de muestreo de partículas para el escalado en tiempo de inferencia en modelos de flujo. Además, demostramos que RBF con EDE-VP logra el mejor rendimiento, superando a todos los enfoques previos de escalado en tiempo de inferencia.
English
We propose an inference-time scaling approach for pretrained flow models. Recently, inference-time scaling has gained significant attention in LLMs and diffusion models, improving sample quality or better aligning outputs with user preferences by leveraging additional computation. For diffusion models, particle sampling has allowed more efficient scaling due to the stochasticity at intermediate denoising steps. On the contrary, while flow models have gained popularity as an alternative to diffusion models--offering faster generation and high-quality outputs in state-of-the-art image and video generative models--efficient inference-time scaling methods used for diffusion models cannot be directly applied due to their deterministic generative process. To enable efficient inference-time scaling for flow models, we propose three key ideas: 1) SDE-based generation, enabling particle sampling in flow models, 2) Interpolant conversion, broadening the search space and enhancing sample diversity, and 3) Rollover Budget Forcing (RBF), an adaptive allocation of computational resources across timesteps to maximize budget utilization. Our experiments show that SDE-based generation, particularly variance-preserving (VP) interpolant-based generation, improves the performance of particle sampling methods for inference-time scaling in flow models. Additionally, we demonstrate that RBF with VP-SDE achieves the best performance, outperforming all previous inference-time scaling approaches.

Summary

AI-Generated Summary

PDF334March 26, 2025