ChatPaper.aiChatPaper

TwinFlow: Реализация одношаговой генерации в больших моделях с помощью самопротивоборствующих потоков

TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

December 3, 2025
Авторы: Zhenglin Cheng, Peng Sun, Jianguo Li, Tao Lin
cs.AI

Аннотация

Последние достижения в области больших мультимодальных генеративных моделей продемонстрировали впечатляющие возможности в мультимодальной генерации, включая создание изображений и видео. Эти модели обычно строятся на основе многошаговых архитектур, таких как диффузионные модели и модели с согласованием потоков (flow matching), что изначально ограничивает их эффективность при выводе (требуя 40-100 оценок функции (NFE)). Хотя различные методы с малым числом шагов направлены на ускорение вывода, существующие решения имеют явные ограничения. Известные методы, основанные на дистилляции, такие как прогрессивная дистилляция и дистилляция согласованности, либо требуют итеративного процесса дистилляции, либо демонстрируют значительную деградацию качества при очень малом числе шагов (< 4-NFE). В то же время интеграция состязательного обучения в дистилляцию (например, DMD/DMD2 и SANA-Sprint) для повышения производительности влечет за собой нестабильность обучения, повышенную сложность и высокие затраты памяти GPU из-за использования дополнительно обучаемых моделей. В связи с этим мы предлагаем TwinFlow — простую, но эффективную框架 для обучения одношаговых генеративных моделей, которая обходится без необходимости в фиксированных предварительно обученных учительских моделях и избегает использования стандартных состязательных сетей в процессе обучения, что делает ее идеальной для создания крупномасштабных эффективных моделей. В задачах генерации изображений по тексту наш метод достигает показателя GenEval, равного 0.83, всего за 1-NFE, превосходя такие сильные базовые методы, как SANA-Sprint (framework на основе GAN-потерь) и RCGM (framework на основе согласованности). Примечательно, что мы демонстрируем масштабируемость TwinFlow путем обучения с полными параметрами на модели Qwen-Image-20B и преобразуем ее в эффективный генератор с малым числом шагов. Всего за 1-NFE наш подход достигает производительности исходной 100-NFE модели на бенчмарках GenEval и DPG-Bench, сокращая вычислительные затраты в 100 раз при незначительной деградации качества. Страница проекта доступна по адресу https://zhenglin-cheng.com/twinflow.
English
Recent advances in large multi-modal generative models have demonstrated impressive capabilities in multi-modal generation, including image and video generation. These models are typically built upon multi-step frameworks like diffusion and flow matching, which inherently limits their inference efficiency (requiring 40-100 Number of Function Evaluations (NFEs)). While various few-step methods aim to accelerate the inference, existing solutions have clear limitations. Prominent distillation-based methods, such as progressive and consistency distillation, either require an iterative distillation procedure or show significant degradation at very few steps (< 4-NFE). Meanwhile, integrating adversarial training into distillation (e.g., DMD/DMD2 and SANA-Sprint) to enhance performance introduces training instability, added complexity, and high GPU memory overhead due to the auxiliary trained models. To this end, we propose TwinFlow, a simple yet effective framework for training 1-step generative models that bypasses the need of fixed pretrained teacher models and avoids standard adversarial networks during training, making it ideal for building large-scale, efficient models. On text-to-image tasks, our method achieves a GenEval score of 0.83 in 1-NFE, outperforming strong baselines like SANA-Sprint (a GAN loss-based framework) and RCGM (a consistency-based framework). Notably, we demonstrate the scalability of TwinFlow by full-parameter training on Qwen-Image-20B and transform it into an efficient few-step generator. With just 1-NFE, our approach matches the performance of the original 100-NFE model on both the GenEval and DPG-Bench benchmarks, reducing computational cost by 100times with minor quality degradation. Project page is available at https://zhenglin-cheng.com/twinflow.
PDF548December 9, 2025