PUSA V1.0: Overstijgt Wan-I2V met $500 trainingskosten door vectorized timestep-aanpassing

Samenvatting

De snelle vooruitgang van videodiffusiemodellen wordt belemmerd door fundamentele beperkingen in temporele modellering, met name de rigide synchronisatie van frame-evolutie die wordt opgelegd door conventionele scalaire tijdsstapvariabelen. Hoewel taakspecifieke aanpassingen en autoregressieve modellen hebben geprobeerd deze uitdagingen aan te pakken, blijven ze beperkt door computationele inefficiëntie, catastrofaal vergeten of een smalle toepasbaarheid. In dit werk presenteren we Pusa, een baanbrekend paradigma dat gebruikmaakt van 'vectorized timestep adaptation' (VTA) om fijnmazige temporele controle mogelijk te maken binnen een geünificeerd videodiffusiekader. Bovendien is VTA een niet-destructieve aanpassing, wat betekent dat het de mogelijkheden van het basismodel volledig behoudt. Door het SOTA Wan2.1-T2V-14B-model te finetunen met VTA, bereiken we een ongekende efficiëntie – de prestaties van Wan-I2V-14B worden overtroffen met ≤ 1/200 van de trainingskosten (\500 vs. ≥ 100.000) en ≤ 1/2500 van de datasetgrootte (4K vs. ≥ 10M samples). Pusa zet niet alleen een nieuwe standaard voor beeld-naar-video (I2V)-generatie, met een VBench-I2V-totaalscore van 87,32% (vs. 86,86% van Wan-I2V-14B), maar ontgrendelt ook veel zero-shot multitask-mogelijkheden, zoals start-eind frames en video-extensie – allemaal zonder taakspecifieke training. Tegelijkertijd kan Pusa nog steeds tekst-naar-video-generatie uitvoeren. Mechanistische analyses tonen aan dat onze aanpak de generatieve prioriteiten van het foundationmodel behoudt terwijl temporele dynamiek op een gerichte manier wordt geïnjecteerd, waardoor de combinatorische explosie die inherent is aan vectorized tijdsstappen wordt vermeden. Dit werk vestigt een schaalbaar, efficiënt en veelzijdig paradigma voor de volgende generatie van videosynthese, waardoor hoogwaardige videogeneratie wordt gedemocratiseerd voor zowel onderzoek als industrie. De code is open-source beschikbaar op https://github.com/Yaofang-Liu/Pusa-VidGen.

English

The rapid advancement of video diffusion models has been hindered by fundamental limitations in temporal modeling, particularly the rigid synchronization of frame evolution imposed by conventional scalar timestep variables. While task-specific adaptations and autoregressive models have sought to address these challenges, they remain constrained by computational inefficiency, catastrophic forgetting, or narrow applicability. In this work, we present Pusa, a groundbreaking paradigm that leverages vectorized timestep adaptation (VTA) to enable fine-grained temporal control within a unified video diffusion framework. Besides, VTA is a non-destructive adaptation, which means it fully preserves the capabilities of the base model. By finetuning the SOTA Wan2.1-T2V-14B model with VTA, we achieve unprecedented efficiency -- surpassing the performance of Wan-I2V-14B with leq 1/200 of the training cost (\500 vs. \geq 100,000) and leq 1/2500 of the dataset size (4K vs. geq 10M samples). Pusa not only sets a new standard for image-to-video (I2V) generation, achieving a VBench-I2V total score of 87.32\% (vs. 86.86\% of Wan-I2V-14B), but also unlocks many zero-shot multi-task capabilities such as start-end frames and video extension -- all without task-specific training. Meanwhile, Pusa can still perform text-to-video generation. Mechanistic analyses reveal that our approach preserves the foundation model's generative priors while surgically injecting temporal dynamics, avoiding the combinatorial explosion inherent to vectorized timesteps. This work establishes a scalable, efficient, and versatile paradigm for next-generation video synthesis, democratizing high-fidelity video generation for research and industry alike. Code is open-sourced at https://github.com/Yaofang-Liu/Pusa-VidGen

PUSA V1.0: Overstijgt Wan-I2V met $500 trainingskosten door vectorized timestep-aanpassing

PUSA V1.0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation

Samenvatting

Support