TwinFlow: 自己敵対的フローによる大規模モデルのワンステップ生成の実現
TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows
December 3, 2025
著者: Zhenglin Cheng, Peng Sun, Jianguo Li, Tao Lin
cs.AI
要旨
大規模マルチモーダル生成モデルの最近の進展は、画像や動画生成を含むマルチモーダル生成において印象的な能力を示している。これらのモデルは通常、拡散やフローマッチングのような多段階フレームワークに基づいて構築されており、これが推論効率を本質的に制限している(40~100回の関数評価回数(NFE)を必要とする)。少数ステップ化による推論加速を目指す様々な手法が存在するが、既存の解決策には明らかな限界がある。プログレッシブ蒸留や一貫性蒸留といった代表的な蒸留ベースの手法は、反復的な蒸留プロセスを必要とするか、非常に少ないステップ数(4-NFE未満)で性能が大幅に劣化する。一方、性能向上のために敵対的訓練を蒸留に統合する手法(DMD/DMD2やSANA-Sprintなど)は、補助的に訓練されるモデルにより、訓練の不安定性、複雑さの増大、高いGPUメモリ負荷をもたらす。そこで本研究では、固定された事前訓練済み教師モデルを必要とせず、訓練中に標準的な敵対的ネットワークを回避する、1ステップ生成モデルを訓練するための簡潔かつ効果的なフレームワーク「TwinFlow」を提案する。テキストから画像へのタスクにおいて、本手法は1-NFEでGenEvalスコア0.83を達成し、SANA-Sprint(GAN損失ベースのフレームワーク)やRCGM(一貫性ベースのフレームワーク)といった強力なベースラインを上回った。特に、Qwen-Image-20Bでの全パラメータ訓練によりTwinFlowの拡張性を実証し、効率的な少数ステップ生成器へと変換した。わずか1-NFEで、我々のアプローチはGenEvalとDPG-Benchの両ベンチマークにおいて元の100-NFEモデルの性能を維持し、計算コストを100分の1に削減しながらも品質劣化を最小限に抑えている。プロジェクトページはhttps://zhenglin-cheng.com/twinflowで公開されている。
English
Recent advances in large multi-modal generative models have demonstrated impressive capabilities in multi-modal generation, including image and video generation. These models are typically built upon multi-step frameworks like diffusion and flow matching, which inherently limits their inference efficiency (requiring 40-100 Number of Function Evaluations (NFEs)). While various few-step methods aim to accelerate the inference, existing solutions have clear limitations. Prominent distillation-based methods, such as progressive and consistency distillation, either require an iterative distillation procedure or show significant degradation at very few steps (< 4-NFE). Meanwhile, integrating adversarial training into distillation (e.g., DMD/DMD2 and SANA-Sprint) to enhance performance introduces training instability, added complexity, and high GPU memory overhead due to the auxiliary trained models. To this end, we propose TwinFlow, a simple yet effective framework for training 1-step generative models that bypasses the need of fixed pretrained teacher models and avoids standard adversarial networks during training, making it ideal for building large-scale, efficient models. On text-to-image tasks, our method achieves a GenEval score of 0.83 in 1-NFE, outperforming strong baselines like SANA-Sprint (a GAN loss-based framework) and RCGM (a consistency-based framework). Notably, we demonstrate the scalability of TwinFlow by full-parameter training on Qwen-Image-20B and transform it into an efficient few-step generator. With just 1-NFE, our approach matches the performance of the original 100-NFE model on both the GenEval and DPG-Bench benchmarks, reducing computational cost by 100times with minor quality degradation. Project page is available at https://zhenglin-cheng.com/twinflow.