Difusión Adversarial Post-Training para la Generación de Video en un Paso

Resumen

Los modelos de difusión son ampliamente utilizados para la generación de imágenes y videos, pero su proceso iterativo de generación es lento y costoso. Aunque los enfoques de destilación existentes han demostrado el potencial para la generación en un solo paso en el dominio de la imagen, aún sufren de una degradación significativa en la calidad. En este trabajo, proponemos el Entrenamiento Posterior Adversarial (APT, por sus siglas en inglés) contra datos reales siguiendo el pre-entrenamiento de difusión para la generación de videos en un solo paso. Para mejorar la estabilidad y calidad del entrenamiento, introducimos varias mejoras en la arquitectura del modelo y los procedimientos de entrenamiento, junto con un objetivo de regularización R1 aproximado. Empíricamente, nuestros experimentos muestran que nuestro modelo post-entrenado adversarial, Seaweed-APT, puede generar videos de 2 segundos, 1280x720, 24fps en tiempo real utilizando un solo paso de evaluación hacia adelante. Además, nuestro modelo es capaz de generar imágenes de 1024px en un solo paso, logrando una calidad comparable a los métodos de vanguardia.

English

The diffusion models are widely used for image and video generation, but their iterative generation process is slow and expansive. While existing distillation approaches have demonstrated the potential for one-step generation in the image domain, they still suffer from significant quality degradation. In this work, we propose Adversarial Post-Training (APT) against real data following diffusion pre-training for one-step video generation. To improve the training stability and quality, we introduce several improvements to the model architecture and training procedures, along with an approximated R1 regularization objective. Empirically, our experiments show that our adversarial post-trained model, Seaweed-APT, can generate 2-second, 1280x720, 24fps videos in real time using a single forward evaluation step. Additionally, our model is capable of generating 1024px images in a single step, achieving quality comparable to state-of-the-art methods.

Difusión Adversarial Post-Training para la Generación de Video en un Paso

Diffusion Adversarial Post-Training for One-Step Video Generation

Resumen

Support