ChatPaper.aiChatPaper

TwinFlow : Réalisation de la génération en une étape sur les grands modèles avec des flux auto-adversariaux

TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

December 3, 2025
papers.authors: Zhenglin Cheng, Peng Sun, Jianguo Li, Tao Lin
cs.AI

papers.abstract

Les récents progrès des grands modèles génératifs multimodaux ont démontré des capacités impressionnantes en génération multimodale, incluant la génération d'images et de vidéos. Ces modèles sont généralement construits sur des architectures multi-étapes comme la diffusion et l'appariement de flux, ce qui limite intrinsèquement leur efficacité en inférence (nécessitant 40 à 100 évaluations de fonctions). Bien que diverses méthodes à faible nombre d'étapes visent à accélérer l'inférence, les solutions existantes présentent des limitations évidentes. Les méthodes prominentes basées sur la distillation, telles que la distillation progressive et la distillation de consistance, exigent soit une procédure de distillation itérative, soit présentent une dégradation significative avec très peu d'étapes (< 4 évaluations). Parallèlement, l'intégration de l'apprentissage antagoniste dans la distillation (par exemple, DMD/DMD2 et SANA-Sprint) pour améliorer les performances introduit une instabilité lors de l'entraînement, une complexité accrue et une surcharge mémoire GPU importante due aux modèles auxiliaires entraînés. Pour pallier cela, nous proposons TwinFlow, un cadre simple mais efficace pour entraîner des modèles génératifs en une étape, qui contourne le besoin de modèles enseignants pré-entraînés fixes et évite les réseaux antagonistes standards durant l'entraînement, le rendant idéal pour construire des modèles efficaces à grande échelle. Sur les tâches de texte-à-image, notre méthode atteint un score GenEval de 0,83 en une évaluation, surpassant des bases de référence solides comme SANA-Sprint (un cadre basé sur une perte GAN) et RCGM (un cadre basé sur la consistance). Notablement, nous démontrons l'évolutivité de TwinFlow par un entraînement en pleins paramètres sur Qwen-Image-20B et le transformons en un générateur efficace à faible nombre d'étapes. Avec seulement une évaluation, notre approche égale les performances du modèle original à 100 évaluations sur les benchmarks GenEval et DPG-Bench, réduisant le coût computationnel par 100 fois avec une dégradation de qualité mineure. La page du projet est disponible à l'adresse https://zhenglin-cheng.com/twinflow.
English
Recent advances in large multi-modal generative models have demonstrated impressive capabilities in multi-modal generation, including image and video generation. These models are typically built upon multi-step frameworks like diffusion and flow matching, which inherently limits their inference efficiency (requiring 40-100 Number of Function Evaluations (NFEs)). While various few-step methods aim to accelerate the inference, existing solutions have clear limitations. Prominent distillation-based methods, such as progressive and consistency distillation, either require an iterative distillation procedure or show significant degradation at very few steps (< 4-NFE). Meanwhile, integrating adversarial training into distillation (e.g., DMD/DMD2 and SANA-Sprint) to enhance performance introduces training instability, added complexity, and high GPU memory overhead due to the auxiliary trained models. To this end, we propose TwinFlow, a simple yet effective framework for training 1-step generative models that bypasses the need of fixed pretrained teacher models and avoids standard adversarial networks during training, making it ideal for building large-scale, efficient models. On text-to-image tasks, our method achieves a GenEval score of 0.83 in 1-NFE, outperforming strong baselines like SANA-Sprint (a GAN loss-based framework) and RCGM (a consistency-based framework). Notably, we demonstrate the scalability of TwinFlow by full-parameter training on Qwen-Image-20B and transform it into an efficient few-step generator. With just 1-NFE, our approach matches the performance of the original 100-NFE model on both the GenEval and DPG-Bench benchmarks, reducing computational cost by 100times with minor quality degradation. Project page is available at https://zhenglin-cheng.com/twinflow.
PDF548December 9, 2025