TwinFlow: Realizando a Geração em Uma Etapa em Modelos de Grande Porte com Fluxos Autoadversariais

Resumo

Avanços recentes em grandes modelos generativos multimodais demonstraram capacidades impressionantes na geração multimodal, incluindo geração de imagens e vídeos. Esses modelos são tipicamente construídos sobre estruturas de múltiplas etapas, como difusão e *flow matching*, o que limita inerentemente sua eficiência de inferência (exigindo 40-100 Avaliações de Função - NFEs). Embora vários métodos de poucas etapas visem acelerar a inferência, as soluções existentes têm limitações claras. Métodos proeminentes baseados em destilação, como destilação progressiva e de consistência, ou exigem um procedimento de destilação iterativo ou apresentam degradação significativa em etapas muito reduzidas (< 4-NFE). Entretanto, integrar o treinamento adversarial na destilação (por exemplo, DMD/DMD2 e SANA-Sprint) para melhorar o desempenho introduz instabilidade no treinamento, complexidade adicional e alta sobrecarga de memória da GPU devido aos modelos auxiliares treinados. Para isso, propomos o TwinFlow, uma estrutura simples mas eficaz para treinar modelos generativos de 1 etapa que ignora a necessidade de modelos professores pré-treinados fixos e evita redes adversariais padrão durante o treino, tornando-o ideal para construir modelos eficientes em larga escala. Em tarefas de texto para imagem, nosso método alcança uma pontuação GenEval de 0.83 em 1-NFE, superando bases fortes como SANA-Sprint (uma estrutura baseada em perda GAN) e RCGM (uma estrutura baseada em consistência). Notavelmente, demonstramos a escalabilidade do TwinFlow através do treino de parâmetro completo no Qwen-Image-20B e transformamo-lo num gerador eficiente de poucas etapas. Com apenas 1-NFE, a nossa abordagem iguala o desempenho do modelo original de 100-NFE tanto nos benchmarks GenEval como DPG-Bench, reduzindo o custo computacional em 100 vezes com degradação mínima de qualidade. A página do projeto está disponível em https://zhenglin-cheng.com/twinflow.

English

Recent advances in large multi-modal generative models have demonstrated impressive capabilities in multi-modal generation, including image and video generation. These models are typically built upon multi-step frameworks like diffusion and flow matching, which inherently limits their inference efficiency (requiring 40-100 Number of Function Evaluations (NFEs)). While various few-step methods aim to accelerate the inference, existing solutions have clear limitations. Prominent distillation-based methods, such as progressive and consistency distillation, either require an iterative distillation procedure or show significant degradation at very few steps (< 4-NFE). Meanwhile, integrating adversarial training into distillation (e.g., DMD/DMD2 and SANA-Sprint) to enhance performance introduces training instability, added complexity, and high GPU memory overhead due to the auxiliary trained models. To this end, we propose TwinFlow, a simple yet effective framework for training 1-step generative models that bypasses the need of fixed pretrained teacher models and avoids standard adversarial networks during training, making it ideal for building large-scale, efficient models. On text-to-image tasks, our method achieves a GenEval score of 0.83 in 1-NFE, outperforming strong baselines like SANA-Sprint (a GAN loss-based framework) and RCGM (a consistency-based framework). Notably, we demonstrate the scalability of TwinFlow by full-parameter training on Qwen-Image-20B and transform it into an efficient few-step generator. With just 1-NFE, our approach matches the performance of the original 100-NFE model on both the GenEval and DPG-Bench benchmarks, reducing computational cost by 100times with minor quality degradation. Project page is available at https://zhenglin-cheng.com/twinflow.

TwinFlow: Realizando a Geração em Uma Etapa em Modelos de Grande Porte com Fluxos Autoadversariais

TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

Resumo

Support