PUSA V1.0: Superare Wan-I2V con un costo di addestramento di $500 grazie all'Adattamento Vettoriale dei Timestep
PUSA V1.0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation
July 22, 2025
Autori: Yaofang Liu, Yumeng Ren, Aitor Artola, Yuxuan Hu, Xiaodong Cun, Xiaotong Zhao, Alan Zhao, Raymond H. Chan, Suiyun Zhang, Rui Liu, Dandan Tu, Jean-Michel Morel
cs.AI
Abstract
Il rapido progresso dei modelli di diffusione video è stato ostacolato da limitazioni fondamentali nella modellazione temporale, in particolare dalla rigida sincronizzazione dell'evoluzione dei fotogrammi imposta dalle convenzionali variabili scalari di timestep. Sebbene adattamenti specifici per task e modelli autoregressivi abbiano cercato di affrontare queste sfide, rimangono vincolati da inefficienza computazionale, oblio catastrofico o applicabilità limitata. In questo lavoro, presentiamo Pusa, un paradigma rivoluzionario che sfrutta l'adattamento vettoriale dei timestep (VTA) per consentire un controllo temporale fine all'interno di un framework unificato di diffusione video. Inoltre, VTA è un adattamento non distruttivo, il che significa che preserva pienamente le capacità del modello di base. Ottimizzando il modello SOTA Wan2.1-T2V-14B con VTA, otteniamo un'efficienza senza precedenti, superando le prestazioni di Wan-I2V-14B con un costo di addestramento ≤ 1/200 (\500 vs. \geq 100.000) e una dimensione del dataset ≤ 1/2500 (4K vs. \geq 10M campioni). Pusa non solo stabilisce un nuovo standard per la generazione da immagine a video (I2V), raggiungendo un punteggio totale VBench-I2V dell'87,32% (vs. 86,86% di Wan-I2V-14B), ma sblocca anche molte capacità zero-shot multi-task come la generazione di fotogrammi iniziali e finali e l'estensione video, tutto senza addestramento specifico per task. Nel frattempo, Pusa può ancora eseguire la generazione da testo a video. Analisi meccanicistiche rivelano che il nostro approccio preserva i priori generativi del modello di base mentre inietta dinamicamente la temporalità, evitando l'esplosione combinatoria intrinseca ai timestep vettoriali. Questo lavoro stabilisce un paradigma scalabile, efficiente e versatile per la sintesi video di prossima generazione, democratizzando la generazione video ad alta fedeltà per la ricerca e l'industria. Il codice è open-source all'indirizzo https://github.com/Yaofang-Liu/Pusa-VidGen.
English
The rapid advancement of video diffusion models has been hindered by
fundamental limitations in temporal modeling, particularly the rigid
synchronization of frame evolution imposed by conventional scalar timestep
variables. While task-specific adaptations and autoregressive models have
sought to address these challenges, they remain constrained by computational
inefficiency, catastrophic forgetting, or narrow applicability. In this work,
we present Pusa, a groundbreaking paradigm that leverages vectorized timestep
adaptation (VTA) to enable fine-grained temporal control within a unified video
diffusion framework. Besides, VTA is a non-destructive adaptation, which means
it fully preserves the capabilities of the base model. By finetuning the SOTA
Wan2.1-T2V-14B model with VTA, we achieve unprecedented efficiency --
surpassing the performance of Wan-I2V-14B with leq 1/200 of the training
cost (\500 vs. \geq 100,000) and leq 1/2500 of the dataset size (4K vs.
geq 10M samples). Pusa not only sets a new standard for image-to-video (I2V)
generation, achieving a VBench-I2V total score of 87.32\% (vs. 86.86\% of
Wan-I2V-14B), but also unlocks many zero-shot multi-task capabilities such as
start-end frames and video extension -- all without task-specific training.
Meanwhile, Pusa can still perform text-to-video generation. Mechanistic
analyses reveal that our approach preserves the foundation model's generative
priors while surgically injecting temporal dynamics, avoiding the combinatorial
explosion inherent to vectorized timesteps. This work establishes a scalable,
efficient, and versatile paradigm for next-generation video synthesis,
democratizing high-fidelity video generation for research and industry alike.
Code is open-sourced at https://github.com/Yaofang-Liu/Pusa-VidGen