TwinFlow: Realisatie van éénstapsgeneratie bij grote modellen met zelf-adversariële flows

Samenvatting

Recente vooruitgang in grote multimodale generatieve modellen heeft indrukwekkende capaciteiten getoond in multimodale generatie, waaronder beeld- en videogeneratie. Deze modellen zijn typisch gebouwd op meerstappenframeworks zoals diffusie en flow matching, wat hun inferentie-efficiëntie inherent beperkt (ze vereisen 40-100 Number of Function Evaluations (NFEs)). Hoewel diverse methoden met weinig stappen tot doel hebben de inferentie te versnellen, hebben bestaande oplossingen duidelijke beperkingen. Vooraanstaande op distillatie gebaseerde methoden, zoals progressieve en consistentie-distillatie, vereisen ofwel een iteratief distillatieproces of vertonen significante degradatie bij zeer weinig stappen (< 4-NFE). Tegelijkertijd introduceert de integratie van adversarial training in distillatie (bijv. DMD/DMD2 en SANA-Sprint) om de prestaties te verbeteren, trainingsinstabiliteit, toegevoegde complexiteit en hoge GPU-geheugenoverhead vanwege de getrainde hulpmodellen. Daarom stellen we TwinFlow voor, een eenvoudig maar effectief framework voor het trainen van 1-staps generatieve modellen dat de noodzaak van vaste, vooraf getrainde leraarmodellen omzeilt en standaard adversarial networks tijdens de training vermijdt, waardoor het ideaal is voor het bouwen van grootschalige, efficiënte modellen. Voor tekst-naar-beeld taken behaalt onze methode een GenEval-score van 0.83 in 1-NFE, wat sterke baselines zoals SANA-Sprint (een op GAN-verlies gebaseerd framework) en RCGM (een op consistentie gebaseerd framework) overtreft. Opmerkelijk is dat we de schaalbaarheid van TwinFlow aantonen door full-parameter training op Qwen-Image-20B en transformeren het naar een efficiënte generator met weinig stappen. Met slechts 1-NFE evenaart onze aanpak de prestaties van het originele 100-NFE model op zowel de GenEval- als DPG-Bench benchmarks, waarbij de computationele kosten met 100 keer worden verminderd met een minimale kwaliteitsdegradatie. De projectpagina is beschikbaar op https://zhenglin-cheng.com/twinflow.

English

Recent advances in large multi-modal generative models have demonstrated impressive capabilities in multi-modal generation, including image and video generation. These models are typically built upon multi-step frameworks like diffusion and flow matching, which inherently limits their inference efficiency (requiring 40-100 Number of Function Evaluations (NFEs)). While various few-step methods aim to accelerate the inference, existing solutions have clear limitations. Prominent distillation-based methods, such as progressive and consistency distillation, either require an iterative distillation procedure or show significant degradation at very few steps (< 4-NFE). Meanwhile, integrating adversarial training into distillation (e.g., DMD/DMD2 and SANA-Sprint) to enhance performance introduces training instability, added complexity, and high GPU memory overhead due to the auxiliary trained models. To this end, we propose TwinFlow, a simple yet effective framework for training 1-step generative models that bypasses the need of fixed pretrained teacher models and avoids standard adversarial networks during training, making it ideal for building large-scale, efficient models. On text-to-image tasks, our method achieves a GenEval score of 0.83 in 1-NFE, outperforming strong baselines like SANA-Sprint (a GAN loss-based framework) and RCGM (a consistency-based framework). Notably, we demonstrate the scalability of TwinFlow by full-parameter training on Qwen-Image-20B and transform it into an efficient few-step generator. With just 1-NFE, our approach matches the performance of the original 100-NFE model on both the GenEval and DPG-Bench benchmarks, reducing computational cost by 100times with minor quality degradation. Project page is available at https://zhenglin-cheng.com/twinflow.

TwinFlow: Realisatie van éénstapsgeneratie bij grote modellen met zelf-adversariële flows

TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

Samenvatting

Support