ChatPaper.aiChatPaper

TwinFlow: Realización de Generación en un Solo Paso en Modelos Grandes con Flujos Autoadversariales

TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

December 3, 2025
Autores: Zhenglin Cheng, Peng Sun, Jianguo Li, Tao Lin
cs.AI

Resumen

Los recientes avances en grandes modelos generativos multimodales han demostrado capacidades impresionantes en generación multimodal, incluyendo la generación de imágenes y videos. Estos modelos generalmente se construyen sobre marcos de múltiples pasos como difusión y flow matching, lo que limita inherentemente su eficiencia de inferencia (requiriendo 40-100 Evaluaciones de Función - NFE). Si bien varios métodos de pocos pasos buscan acelerar la inferencia, las soluciones existentes tienen limitaciones claras. Los métodos prominentes basados en destilación, como la destilación progresiva y de consistencia, requieren un procedimiento de destilación iterativo o muestran una degradación significativa en muy pocos pasos (<4-NFE). Mientras tanto, integrar entrenamiento adversarial en la destilación (por ejemplo, DMD/DMD2 y SANA-Sprint) para mejorar el rendimiento introduce inestabilidad en el entrenamiento, complejidad adicional y alto consumo de memoria de GPU debido a los modelos auxiliares entrenados. Para ello, proponemos TwinFlow, un marco simple pero efectivo para entrenar modelos generativos de 1 paso que evita la necesidad de modelos de profesor preentrenados fijos y evita redes adversariales estándar durante el entrenamiento, haciéndolo ideal para construir modelos eficientes a gran escala. En tareas de texto a imagen, nuestro método logra un puntaje GenEval de 0.83 en 1-NFE, superando a líneas base sólidas como SANA-Sprint (un marco basado en pérdida GAN) y RCGM (un marco basado en consistencia). Notablemente, demostramos la escalabilidad de TwinFlow mediante entrenamiento de parámetros completos en Qwen-Image-20B y lo transformamos en un generador eficiente de pocos pasos. Con solo 1-NFE, nuestro enfoque iguala el rendimiento del modelo original de 100-NFE tanto en los benchmarks GenEval como DPG-Bench, reduciendo el costo computacional 100 veces con una degradación de calidad menor. La página del proyecto está disponible en https://zhenglin-cheng.com/twinflow.
English
Recent advances in large multi-modal generative models have demonstrated impressive capabilities in multi-modal generation, including image and video generation. These models are typically built upon multi-step frameworks like diffusion and flow matching, which inherently limits their inference efficiency (requiring 40-100 Number of Function Evaluations (NFEs)). While various few-step methods aim to accelerate the inference, existing solutions have clear limitations. Prominent distillation-based methods, such as progressive and consistency distillation, either require an iterative distillation procedure or show significant degradation at very few steps (< 4-NFE). Meanwhile, integrating adversarial training into distillation (e.g., DMD/DMD2 and SANA-Sprint) to enhance performance introduces training instability, added complexity, and high GPU memory overhead due to the auxiliary trained models. To this end, we propose TwinFlow, a simple yet effective framework for training 1-step generative models that bypasses the need of fixed pretrained teacher models and avoids standard adversarial networks during training, making it ideal for building large-scale, efficient models. On text-to-image tasks, our method achieves a GenEval score of 0.83 in 1-NFE, outperforming strong baselines like SANA-Sprint (a GAN loss-based framework) and RCGM (a consistency-based framework). Notably, we demonstrate the scalability of TwinFlow by full-parameter training on Qwen-Image-20B and transform it into an efficient few-step generator. With just 1-NFE, our approach matches the performance of the original 100-NFE model on both the GenEval and DPG-Bench benchmarks, reducing computational cost by 100times with minor quality degradation. Project page is available at https://zhenglin-cheng.com/twinflow.
PDF548December 9, 2025