ChatPaper.aiChatPaper

TwinFlow: 자체-적대적 흐름을 통한 대규모 모델의 단일 단계 생성 구현

TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

December 3, 2025
저자: Zhenglin Cheng, Peng Sun, Jianguo Li, Tao Lin
cs.AI

초록

대규모 다중 모달 생성 모델의 최근 발전은 이미지 및 동영상 생성을 포함한 다중 모달 생성 분야에서 인상적인 능력을 보여주고 있습니다. 이러한 모델들은 일반적으로 확산(diffusion) 및 플로우 매칭(flow matching)과 같은 다단계 프레임워크를 기반으로 구축되어, 본질적으로 추론 효율성(40-100 NFE 기능 평가 횟수 필요)이 제한됩니다. 다양한 few-step 방법이 추론 가속화를 목표로 하지만, 기존 솔루션들은 명확한 한계점을 가지고 있습니다. 점진적 증류(progressive distillation) 및 일관성 증류(consistency distillation)와 같은 주요 증류 기반 방법들은 반복적인 증류 과정을 필요로 하거나 매우 적은 단계(< 4-NFE)에서 성능이 크게 저하됩니다. 한편, 성능 향상을 위해 적대적 학습을 증류에 통합하는 방법(DMD/DMD2 및 SANA-Sprint 등)은 훈련 불안정성, 추가적 복잡성, 그리고 보조 훈련 모델로 인한 높은 GPU 메모리 오버헤드를 초래합니다. 이를 위해 우리는 고정된 사전 훈련된 교사 모델의 필요성을 우회하고 훈련 중 표준 적대적 네트워크를 회피하는 간단하면서 효과적인 1-단계 생성 모델 훈련 프레임워크인 TwinFlow를 제안합니다. 이는 대규모 효율적 모델 구축에 이상적입니다. 텍스트-이미지 변환 작업에서 우리의 방법은 1-NFE로 GenEval 점수 0.83을 달성하여, SANA-Sprint(GAN 손실 기반 프레임워크) 및 RCGM(일관성 기반 프레임워크)과 같은 강력한 기준 모델들을 능가합니다. 특히, 우리는 Qwen-Image-20B에 대한 전체 매개변수 훈련을 통해 TwinFlow의 확장성을 입증하고 이를 효율적인 few-step 생성기로 변환합니다. 단 1-NFE로 우리의 접근 방식은 GenEval 및 DPG-Bench 벤치마크에서 원본 100-NFE 모델의 성능에 필적하며, 미미한 품질 저하만으로 계산 비용을 100배 절감합니다. 프로젝트 페이지는 https://zhenglin-cheng.com/twinflow 에서 확인할 수 있습니다.
English
Recent advances in large multi-modal generative models have demonstrated impressive capabilities in multi-modal generation, including image and video generation. These models are typically built upon multi-step frameworks like diffusion and flow matching, which inherently limits their inference efficiency (requiring 40-100 Number of Function Evaluations (NFEs)). While various few-step methods aim to accelerate the inference, existing solutions have clear limitations. Prominent distillation-based methods, such as progressive and consistency distillation, either require an iterative distillation procedure or show significant degradation at very few steps (< 4-NFE). Meanwhile, integrating adversarial training into distillation (e.g., DMD/DMD2 and SANA-Sprint) to enhance performance introduces training instability, added complexity, and high GPU memory overhead due to the auxiliary trained models. To this end, we propose TwinFlow, a simple yet effective framework for training 1-step generative models that bypasses the need of fixed pretrained teacher models and avoids standard adversarial networks during training, making it ideal for building large-scale, efficient models. On text-to-image tasks, our method achieves a GenEval score of 0.83 in 1-NFE, outperforming strong baselines like SANA-Sprint (a GAN loss-based framework) and RCGM (a consistency-based framework). Notably, we demonstrate the scalability of TwinFlow by full-parameter training on Qwen-Image-20B and transform it into an efficient few-step generator. With just 1-NFE, our approach matches the performance of the original 100-NFE model on both the GenEval and DPG-Bench benchmarks, reducing computational cost by 100times with minor quality degradation. Project page is available at https://zhenglin-cheng.com/twinflow.
PDF548December 9, 2025