PUSA V1.0: Superando a Wan-I2V con un costo de entrenamiento de $500 mediante la adaptación vectorizada de pasos temporales
PUSA V1.0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation
July 22, 2025
Autores: Yaofang Liu, Yumeng Ren, Aitor Artola, Yuxuan Hu, Xiaodong Cun, Xiaotong Zhao, Alan Zhao, Raymond H. Chan, Suiyun Zhang, Rui Liu, Dandan Tu, Jean-Michel Morel
cs.AI
Resumen
El rápido avance de los modelos de difusión de video se ha visto obstaculizado por limitaciones fundamentales en el modelado temporal, particularmente la sincronización rígida de la evolución de los fotogramas impuesta por las variables convencionales de pasos de tiempo escalares. Aunque las adaptaciones específicas para tareas y los modelos autorregresivos han intentado abordar estos desafíos, siguen estando limitados por la ineficiencia computacional, el olvido catastrófico o la aplicabilidad reducida. En este trabajo, presentamos Pusa, un paradigma innovador que aprovecha la adaptación vectorizada de pasos de tiempo (VTA) para permitir un control temporal de grano fino dentro de un marco unificado de difusión de video. Además, VTA es una adaptación no destructiva, lo que significa que preserva completamente las capacidades del modelo base. Al ajustar el modelo Wan2.1-T2V-14B, líder en su campo, con VTA, logramos una eficiencia sin precedentes, superando el rendimiento de Wan-I2V-14B con ≤ 1/200 del costo de entrenamiento (\500 vs. \geq 100,000) y ≤ 1/2500 del tamaño del conjunto de datos (4K vs. \geq 10M muestras). Pusa no solo establece un nuevo estándar para la generación de imagen a video (I2V), logrando una puntuación total en VBench-I2V de 87.32\% (vs. 86.86\% de Wan-I2V-14B), sino que también desbloquea muchas capacidades multitarea en modo zero-shot, como la generación de fotogramas iniciales y finales y la extensión de video, todo ello sin entrenamiento específico para tareas. Mientras tanto, Pusa aún puede realizar generación de texto a video. Los análisis mecanicistas revelan que nuestro enfoque preserva los conocimientos generativos del modelo base mientras inyecta dinámicas temporales de manera precisa, evitando la explosión combinatoria inherente a los pasos de tiempo vectorizados. Este trabajo establece un paradigma escalable, eficiente y versátil para la síntesis de video de próxima generación, democratizando la generación de video de alta fidelidad tanto para la investigación como para la industria. El código está disponible en https://github.com/Yaofang-Liu/Pusa-VidGen.
English
The rapid advancement of video diffusion models has been hindered by
fundamental limitations in temporal modeling, particularly the rigid
synchronization of frame evolution imposed by conventional scalar timestep
variables. While task-specific adaptations and autoregressive models have
sought to address these challenges, they remain constrained by computational
inefficiency, catastrophic forgetting, or narrow applicability. In this work,
we present Pusa, a groundbreaking paradigm that leverages vectorized timestep
adaptation (VTA) to enable fine-grained temporal control within a unified video
diffusion framework. Besides, VTA is a non-destructive adaptation, which means
it fully preserves the capabilities of the base model. By finetuning the SOTA
Wan2.1-T2V-14B model with VTA, we achieve unprecedented efficiency --
surpassing the performance of Wan-I2V-14B with leq 1/200 of the training
cost (\500 vs. \geq 100,000) and leq 1/2500 of the dataset size (4K vs.
geq 10M samples). Pusa not only sets a new standard for image-to-video (I2V)
generation, achieving a VBench-I2V total score of 87.32\% (vs. 86.86\% of
Wan-I2V-14B), but also unlocks many zero-shot multi-task capabilities such as
start-end frames and video extension -- all without task-specific training.
Meanwhile, Pusa can still perform text-to-video generation. Mechanistic
analyses reveal that our approach preserves the foundation model's generative
priors while surgically injecting temporal dynamics, avoiding the combinatorial
explosion inherent to vectorized timesteps. This work establishes a scalable,
efficient, and versatile paradigm for next-generation video synthesis,
democratizing high-fidelity video generation for research and industry alike.
Code is open-sourced at https://github.com/Yaofang-Liu/Pusa-VidGen