TwinFlow: Realizzazione della generazione in un singolo passo su modelli di grandi dimensioni con flussi auto-avversariali
TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows
December 3, 2025
Autori: Zhenglin Cheng, Peng Sun, Jianguo Li, Tao Lin
cs.AI
Abstract
I recenti progressi nei grandi modelli generativi multimodali hanno dimostrato capacità impressionanti nella generazione multimodale, inclusa la generazione di immagini e video. Questi modelli sono tipicamente costruiti su framework multi-step come la diffusione e il flow matching, il che limita intrinsecamente la loro efficienza inferenziale (richiedendo 40-100 Valutazioni di Funzione - NFE). Sebbene vari metodi a pochi step mirino ad accelerare l'inferenza, le soluzioni esistenti presentano chiare limitazioni. I metodi prominenti basati sulla distillazione, come la distillazione progressiva e consistency, richiedono o una procedura di distillazione iterativa o mostrano un significativo degrado con pochissimi step (<4-NFE). Nel frattempo, l'integrazione dell'addestramento adversarial nella distillazione (ad esempio, DMD/DMD2 e SANA-Sprint) per migliorare le prestazioni introduce instabilità nell'addestramento, complessità aggiuntiva e un elevato sovraccarico di memoria GPU a causa dei modelli addizionali addestrati. A tal fine, proponiamo TwinFlow, un framework semplice ma efficace per l'addestramento di modelli generativi a 1-step che bypassa la necessità di modelli insegnante pre-addestrati fissi ed evita le reti adversarial standard durante l'addestramento, rendendolo ideale per costruire modelli efficienti su larga scala. Su compiti di text-to-image, il nostro metodo raggiunge un punteggio GenEval di 0.83 in 1-NFE, superando baseline robuste come SANA-Sprint (un framework basato su perdita GAN) e RCGM (un framework basato sulla consistency). Notevolmente, dimostriamo la scalabilità di TwinFlow mediante l'addestramento full-parameter su Qwen-Image-20B e lo trasformiamo in un generatore efficiente a pochi step. Con soli 1-NFE, il nostro approccio eguaglia le prestazioni del modello originale a 100-NFE sia sui benchmark GenEval che DPG-Bench, riducendo il costo computazionale di 100 volte con una degradazione minima della qualità. La pagina del progetto è disponibile all'indirizzo https://zhenglin-cheng.com/twinflow.
English
Recent advances in large multi-modal generative models have demonstrated impressive capabilities in multi-modal generation, including image and video generation. These models are typically built upon multi-step frameworks like diffusion and flow matching, which inherently limits their inference efficiency (requiring 40-100 Number of Function Evaluations (NFEs)). While various few-step methods aim to accelerate the inference, existing solutions have clear limitations. Prominent distillation-based methods, such as progressive and consistency distillation, either require an iterative distillation procedure or show significant degradation at very few steps (< 4-NFE). Meanwhile, integrating adversarial training into distillation (e.g., DMD/DMD2 and SANA-Sprint) to enhance performance introduces training instability, added complexity, and high GPU memory overhead due to the auxiliary trained models. To this end, we propose TwinFlow, a simple yet effective framework for training 1-step generative models that bypasses the need of fixed pretrained teacher models and avoids standard adversarial networks during training, making it ideal for building large-scale, efficient models. On text-to-image tasks, our method achieves a GenEval score of 0.83 in 1-NFE, outperforming strong baselines like SANA-Sprint (a GAN loss-based framework) and RCGM (a consistency-based framework). Notably, we demonstrate the scalability of TwinFlow by full-parameter training on Qwen-Image-20B and transform it into an efficient few-step generator. With just 1-NFE, our approach matches the performance of the original 100-NFE model on both the GenEval and DPG-Bench benchmarks, reducing computational cost by 100times with minor quality degradation. Project page is available at https://zhenglin-cheng.com/twinflow.