Alinea tu Flujo: Escalando la Distilación de Mapas de Flujo en Tiempo Continuo
Align Your Flow: Scaling Continuous-Time Flow Map Distillation
June 17, 2025
Autores: Amirmojtaba Sabour, Sanja Fidler, Karsten Kreis
cs.AI
Resumen
Los modelos basados en difusión y flujo han surgido como enfoques de vanguardia en modelado generativo, pero requieren muchos pasos de muestreo. Los modelos de consistencia pueden destilar estos modelos en generadores eficientes de un solo paso; sin embargo, a diferencia de los métodos basados en flujo y difusión, su rendimiento inevitablemente se degrada al aumentar el número de pasos, lo que demostramos tanto analítica como empíricamente. Los mapas de flujo generalizan estos enfoques al conectar cualquier dos niveles de ruido en un solo paso y mantienen su eficacia en todos los recuentos de pasos. En este artículo, introducimos dos nuevos objetivos de tiempo continuo para entrenar mapas de flujo, junto con técnicas de entrenamiento novedosas adicionales, generalizando los objetivos existentes de consistencia y emparejamiento de flujo. Además, demostramos que la autoguiada puede mejorar el rendimiento, utilizando un modelo de baja calidad para guiar durante la destilación, y se puede lograr un impulso adicional mediante el ajuste fino adversario, con una pérdida mínima en la diversidad de muestras. Validamos extensamente nuestros modelos de mapas de flujo, llamados Align Your Flow, en desafiantes benchmarks de generación de imágenes y alcanzamos un rendimiento de vanguardia en generación de pocos pasos tanto en ImageNet 64x64 como en 512x512, utilizando redes neuronales pequeñas y eficientes. Finalmente, mostramos modelos de mapas de flujo de texto a imagen que superan a todos los muestreadores de pocos pasos existentes no entrenados adversariamente en síntesis condicionada por texto.
English
Diffusion- and flow-based models have emerged as state-of-the-art generative
modeling approaches, but they require many sampling steps. Consistency models
can distill these models into efficient one-step generators; however, unlike
flow- and diffusion-based methods, their performance inevitably degrades when
increasing the number of steps, which we show both analytically and
empirically. Flow maps generalize these approaches by connecting any two noise
levels in a single step and remain effective across all step counts. In this
paper, we introduce two new continuous-time objectives for training flow maps,
along with additional novel training techniques, generalizing existing
consistency and flow matching objectives. We further demonstrate that
autoguidance can improve performance, using a low-quality model for guidance
during distillation, and an additional boost can be achieved by adversarial
finetuning, with minimal loss in sample diversity. We extensively validate our
flow map models, called Align Your Flow, on challenging image generation
benchmarks and achieve state-of-the-art few-step generation performance on both
ImageNet 64x64 and 512x512, using small and efficient neural networks. Finally,
we show text-to-image flow map models that outperform all existing
non-adversarially trained few-step samplers in text-conditioned synthesis.