PUSA V1.0: Superando o Wan-I2V com Custo de Treinamento de $500 por meio da Adaptação Vetorizada de Passos de Tempo
PUSA V1.0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation
July 22, 2025
Autores: Yaofang Liu, Yumeng Ren, Aitor Artola, Yuxuan Hu, Xiaodong Cun, Xiaotong Zhao, Alan Zhao, Raymond H. Chan, Suiyun Zhang, Rui Liu, Dandan Tu, Jean-Michel Morel
cs.AI
Resumo
O rápido avanço dos modelos de difusão de vídeo tem sido dificultado por limitações fundamentais na modelagem temporal, particularmente a sincronização rígida da evolução dos quadros imposta pelas variáveis convencionais de passo de tempo escalar. Embora adaptações específicas para tarefas e modelos autoregressivos tenham buscado abordar esses desafios, eles permanecem limitados por ineficiência computacional, esquecimento catastrófico ou aplicabilidade restrita. Neste trabalho, apresentamos Pusa, um paradigma inovador que aproveita a adaptação vetorizada de passo de tempo (VTA) para permitir controle temporal refinado dentro de um framework unificado de difusão de vídeo. Além disso, a VTA é uma adaptação não destrutiva, o que significa que ela preserva totalmente as capacidades do modelo base. Ao ajustar o modelo Wan2.1-T2V-14B, estado da arte, com VTA, alcançamos uma eficiência sem precedentes — superando o desempenho do Wan-I2V-14B com ≤ 1/200 do custo de treinamento (\500 vs. \geq 100.000) e ≤ 1/2500 do tamanho do conjunto de dados (4K vs. \geq 10M amostras). O Pusa não apenas estabelece um novo padrão para a geração de imagem para vídeo (I2V), alcançando uma pontuação total VBench-I2V de 87,32% (vs. 86,86% do Wan-I2V-14B), mas também desbloqueia muitas capacidades multitarefa zero-shot, como quadros inicial e final e extensão de vídeo — tudo sem treinamento específico para tarefas. Enquanto isso, o Pusa ainda pode realizar a geração de texto para vídeo. Análises mecanicistas revelam que nossa abordagem preserva os priors generativos do modelo de base enquanto injeta dinâmicas temporais de forma cirúrgica, evitando a explosão combinatória inerente aos passos de tempo vetorizados. Este trabalho estabelece um paradigma escalável, eficiente e versátil para a síntese de vídeo de próxima geração, democratizando a geração de vídeo de alta fidelidade tanto para pesquisa quanto para a indústria. O código está disponível em https://github.com/Yaofang-Liu/Pusa-VidGen.
English
The rapid advancement of video diffusion models has been hindered by
fundamental limitations in temporal modeling, particularly the rigid
synchronization of frame evolution imposed by conventional scalar timestep
variables. While task-specific adaptations and autoregressive models have
sought to address these challenges, they remain constrained by computational
inefficiency, catastrophic forgetting, or narrow applicability. In this work,
we present Pusa, a groundbreaking paradigm that leverages vectorized timestep
adaptation (VTA) to enable fine-grained temporal control within a unified video
diffusion framework. Besides, VTA is a non-destructive adaptation, which means
it fully preserves the capabilities of the base model. By finetuning the SOTA
Wan2.1-T2V-14B model with VTA, we achieve unprecedented efficiency --
surpassing the performance of Wan-I2V-14B with leq 1/200 of the training
cost (\500 vs. \geq 100,000) and leq 1/2500 of the dataset size (4K vs.
geq 10M samples). Pusa not only sets a new standard for image-to-video (I2V)
generation, achieving a VBench-I2V total score of 87.32\% (vs. 86.86\% of
Wan-I2V-14B), but also unlocks many zero-shot multi-task capabilities such as
start-end frames and video extension -- all without task-specific training.
Meanwhile, Pusa can still perform text-to-video generation. Mechanistic
analyses reveal that our approach preserves the foundation model's generative
priors while surgically injecting temporal dynamics, avoiding the combinatorial
explosion inherent to vectorized timesteps. This work establishes a scalable,
efficient, and versatile paradigm for next-generation video synthesis,
democratizing high-fidelity video generation for research and industry alike.
Code is open-sourced at https://github.com/Yaofang-Liu/Pusa-VidGen