ChatPaper.aiChatPaper

Alignez votre flux : Mise à l'échelle de la distillation de cartes de flux en temps continu

Align Your Flow: Scaling Continuous-Time Flow Map Distillation

June 17, 2025
Auteurs: Amirmojtaba Sabour, Sanja Fidler, Karsten Kreis
cs.AI

Résumé

Les modèles basés sur la diffusion et les flux sont devenus des approches de pointe en modélisation générative, mais ils nécessitent de nombreuses étapes d'échantillonnage. Les modèles de cohérence peuvent distiller ces modèles en générateurs efficaces en une seule étape ; cependant, contrairement aux méthodes basées sur les flux et la diffusion, leurs performances se dégradent inévitablement lorsque le nombre d'étapes augmente, ce que nous démontrons à la fois analytiquement et empiriquement. Les cartes de flux généralisent ces approches en connectant deux niveaux de bruit en une seule étape et restent efficaces quel que soit le nombre d'étapes. Dans cet article, nous introduisons deux nouveaux objectifs en temps continu pour l'entraînement des cartes de flux, ainsi que des techniques d'entraînement novatrices, généralisant les objectifs existants de cohérence et d'appariement de flux. Nous démontrons en outre que l'autoguidage peut améliorer les performances, en utilisant un modèle de faible qualité pour guider la distillation, et qu'un gain supplémentaire peut être obtenu par un affinage adversarial, avec une perte minimale de diversité des échantillons. Nous validons largement nos modèles de cartes de flux, appelés Align Your Flow, sur des benchmarks exigeants de génération d'images et atteignons des performances de pointe en génération en quelques étapes sur ImageNet 64x64 et 512x512, en utilisant des réseaux de neurones petits et efficaces. Enfin, nous présentons des modèles de cartes de flux texte-à-image qui surpassent tous les échantillonneurs existants non adversarialement entraînés en synthèse conditionnée par le texte.
English
Diffusion- and flow-based models have emerged as state-of-the-art generative modeling approaches, but they require many sampling steps. Consistency models can distill these models into efficient one-step generators; however, unlike flow- and diffusion-based methods, their performance inevitably degrades when increasing the number of steps, which we show both analytically and empirically. Flow maps generalize these approaches by connecting any two noise levels in a single step and remain effective across all step counts. In this paper, we introduce two new continuous-time objectives for training flow maps, along with additional novel training techniques, generalizing existing consistency and flow matching objectives. We further demonstrate that autoguidance can improve performance, using a low-quality model for guidance during distillation, and an additional boost can be achieved by adversarial finetuning, with minimal loss in sample diversity. We extensively validate our flow map models, called Align Your Flow, on challenging image generation benchmarks and achieve state-of-the-art few-step generation performance on both ImageNet 64x64 and 512x512, using small and efficient neural networks. Finally, we show text-to-image flow map models that outperform all existing non-adversarially trained few-step samplers in text-conditioned synthesis.
PDF144June 18, 2025