Alinhe Seu Fluxo: Escalonando a Distilação de Mapas de Fluxo em Tempo Contínuo
Align Your Flow: Scaling Continuous-Time Flow Map Distillation
June 17, 2025
Autores: Amirmojtaba Sabour, Sanja Fidler, Karsten Kreis
cs.AI
Resumo
Modelos baseados em difusão e fluxo emergiram como abordagens de última geração para modelagem generativa, mas exigem muitas etapas de amostragem. Modelos de consistência podem destilar esses modelos em geradores eficientes de uma única etapa; no entanto, ao contrário dos métodos baseados em fluxo e difusão, seu desempenho inevitavelmente se degrada ao aumentar o número de etapas, o que demonstramos tanto analiticamente quanto empiricamente. Mapas de fluxo generalizam essas abordagens ao conectar quaisquer dois níveis de ruído em uma única etapa e permanecem eficazes em todas as contagens de etapas. Neste artigo, introduzimos dois novos objetivos de tempo contínuo para treinar mapas de fluxo, juntamente com técnicas de treinamento adicionais e inovadoras, generalizando os objetivos existentes de consistência e correspondência de fluxo. Além disso, demonstramos que a autoguiada pode melhorar o desempenho, utilizando um modelo de baixa qualidade para orientação durante a destilação, e um impulso adicional pode ser alcançado por meio de ajuste fino adversário, com perda mínima na diversidade de amostras. Validamos extensivamente nossos modelos de mapa de fluxo, chamados Align Your Flow, em benchmarks desafiadores de geração de imagens e alcançamos desempenho de última geração em geração de poucas etapas tanto no ImageNet 64x64 quanto no 512x512, utilizando redes neurais pequenas e eficientes. Por fim, mostramos modelos de mapa de fluxo de texto para imagem que superam todos os amostradores de poucas etapas existentes não treinados adversariamente em síntese condicionada por texto.
English
Diffusion- and flow-based models have emerged as state-of-the-art generative
modeling approaches, but they require many sampling steps. Consistency models
can distill these models into efficient one-step generators; however, unlike
flow- and diffusion-based methods, their performance inevitably degrades when
increasing the number of steps, which we show both analytically and
empirically. Flow maps generalize these approaches by connecting any two noise
levels in a single step and remain effective across all step counts. In this
paper, we introduce two new continuous-time objectives for training flow maps,
along with additional novel training techniques, generalizing existing
consistency and flow matching objectives. We further demonstrate that
autoguidance can improve performance, using a low-quality model for guidance
during distillation, and an additional boost can be achieved by adversarial
finetuning, with minimal loss in sample diversity. We extensively validate our
flow map models, called Align Your Flow, on challenging image generation
benchmarks and achieve state-of-the-art few-step generation performance on both
ImageNet 64x64 and 512x512, using small and efficient neural networks. Finally,
we show text-to-image flow map models that outperform all existing
non-adversarially trained few-step samplers in text-conditioned synthesis.