TwinFlow: Realisierung der Ein-Schritt-Generierung bei großen Modellen durch selbstadversarische Flows
TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows
December 3, 2025
papers.authors: Zhenglin Cheng, Peng Sun, Jianguo Li, Tao Lin
cs.AI
papers.abstract
Jüngste Fortschritte bei großen multimodalen generativen Modellen haben beeindruckende Fähigkeiten in der multimodalen Generierung, einschließlich Bild- und Videogenerierung, demonstriert. Diese Modelle basieren typischerweise auf mehrstufigen Frameworks wie Diffusion und Flow Matching, was ihre Inferenzeffizienz grundsätzlich einschränkt (erfordert 40-100 Number of Function Evaluations, NFE). Während verschiedene Methoden mit wenigen Schritten eine Beschleunigung der Inferenz anstreben, weisen bestehende Lösungen klare Grenzen auf. Prominente, auf Distillation basierende Methoden wie progressive und Consistency Distillation erfordern entweder ein iteratives Distillationsverfahren oder zeigen eine signifikante Verschlechterung bei sehr wenigen Schritten (< 4 NFE). Gleichzeitig führt die Integration von adversarialem Training in die Distillation (z.B. DMD/DMD2 und SANA-Sprint) zur Leistungssteigerung zu Trainingsinstabilität, erhöhter Komplexität und hohem GPU-Speicherbedarf aufgrund der zusätzlich trainierten Modelle. Daher schlagen wir TwinFlow vor, ein einfaches yet effektives Framework zum Training von 1-Schritt-Generatormodellen, das den Bedarf an festen vortrainierten Teacher-Modellen umgeht und standardmäßige adversariale Netzwerke während des Trainings vermeidet, was es ideal für den Aufbau großskaliger, effizienter Modelle macht. Bei Text-zu-Bild-Aufgaben erreicht unsere Methode einen GenEval-Score von 0,83 in 1 NFE und übertrifft damit starke Baselines wie SANA-Sprint (ein GAN-Loss-basiertes Framework) und RCGM (ein Consistency-basiertes Framework). Bemerkenswerterweise demonstrieren wir die Skalierbarkeit von TwinFlow durch Full-Parameter-Training auf Qwen-Image-20B und wandeln es in einen effizienten Few-Step-Generator um. Mit nur 1 NFE erreicht unser Ansatz auf den Benchmarks GenEval und DPG-Bench die Leistung des ursprünglichen 100-NFE-Modells, reduziert die Rechenkosten um das 100-fache bei nur geringem Qualitätsverlust. Die Projektseite ist verfügbar unter https://zhenglin-cheng.com/twinflow.
English
Recent advances in large multi-modal generative models have demonstrated impressive capabilities in multi-modal generation, including image and video generation. These models are typically built upon multi-step frameworks like diffusion and flow matching, which inherently limits their inference efficiency (requiring 40-100 Number of Function Evaluations (NFEs)). While various few-step methods aim to accelerate the inference, existing solutions have clear limitations. Prominent distillation-based methods, such as progressive and consistency distillation, either require an iterative distillation procedure or show significant degradation at very few steps (< 4-NFE). Meanwhile, integrating adversarial training into distillation (e.g., DMD/DMD2 and SANA-Sprint) to enhance performance introduces training instability, added complexity, and high GPU memory overhead due to the auxiliary trained models. To this end, we propose TwinFlow, a simple yet effective framework for training 1-step generative models that bypasses the need of fixed pretrained teacher models and avoids standard adversarial networks during training, making it ideal for building large-scale, efficient models. On text-to-image tasks, our method achieves a GenEval score of 0.83 in 1-NFE, outperforming strong baselines like SANA-Sprint (a GAN loss-based framework) and RCGM (a consistency-based framework). Notably, we demonstrate the scalability of TwinFlow by full-parameter training on Qwen-Image-20B and transform it into an efficient few-step generator. With just 1-NFE, our approach matches the performance of the original 100-NFE model on both the GenEval and DPG-Bench benchmarks, reducing computational cost by 100times with minor quality degradation. Project page is available at https://zhenglin-cheng.com/twinflow.