PUSA V1.0: Übertrifft Wan-I2V mit $500 Trainingskosten durch vektorisierte Zeitschrittanpassung
PUSA V1.0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation
July 22, 2025
papers.authors: Yaofang Liu, Yumeng Ren, Aitor Artola, Yuxuan Hu, Xiaodong Cun, Xiaotong Zhao, Alan Zhao, Raymond H. Chan, Suiyun Zhang, Rui Liu, Dandan Tu, Jean-Michel Morel
cs.AI
papers.abstract
Die rasante Weiterentwicklung von Video-Diffusionsmodellen wurde durch grundlegende Einschränkungen in der zeitlichen Modellierung behindert, insbesondere durch die starre Synchronisation der Rahmenentwicklung, die durch konventionelle skalare Zeitschrittvariablen auferlegt wird. Obwohl aufgabenspezifische Anpassungen und autoregressive Modelle versucht haben, diese Herausforderungen zu bewältigen, bleiben sie durch Rechenineffizienz, katastrophales Vergessen oder begrenzte Anwendbarkeit eingeschränkt. In dieser Arbeit präsentieren wir Pusa, ein bahnbrechendes Paradigma, das die vektorisierte Zeitschrittadaptation (VTA) nutzt, um eine fein abgestimmte zeitliche Kontrolle innerhalb eines einheitlichen Video-Diffusionsrahmens zu ermöglichen. Darüber hinaus ist VTA eine zerstörungsfreie Anpassung, was bedeutet, dass sie die Fähigkeiten des Basismodells vollständig erhält. Durch das Feinabstimmen des SOTA-Modells Wan2.1-T2V-14B mit VTA erreichen wir eine beispiellose Effizienz – wir übertreffen die Leistung von Wan-I2V-14B mit ≤ 1/200 der Trainingskosten (\500 vs. \geq 100.000) und ≤ 1/2500 der Datensatzgröße (4K vs. \geq 10M Proben). Pusa setzt nicht nur einen neuen Standard für die Bild-zu-Video-Generierung (I2V) und erreicht einen VBench-I2V-Gesamtwert von 87,32\% (vs. 86,86\% von Wan-I2V-14B), sondern erschließt auch viele Zero-Shot-Multitasking-Fähigkeiten wie Start-End-Rahmen und Videoerweiterung – alles ohne aufgabenspezifisches Training. Gleichzeitig kann Pusa weiterhin Text-zu-Video-Generierung durchführen. Mechanistische Analysen zeigen, dass unser Ansatz die generativen Prioritäten des Basismodells bewahrt, während zeitliche Dynamiken gezielt eingeführt werden, wodurch die kombinatorische Explosion vermieden wird, die vektorisierte Zeitschritte inhärent ist. Diese Arbeit etabliert ein skalierbares, effizientes und vielseitiges Paradigma für die nächste Generation der Videosynthese und demokratisiert die hochauflösende Videogenerierung sowohl für die Forschung als auch für die Industrie. Der Code ist unter https://github.com/Yaofang-Liu/Pusa-VidGen quelloffen verfügbar.
English
The rapid advancement of video diffusion models has been hindered by
fundamental limitations in temporal modeling, particularly the rigid
synchronization of frame evolution imposed by conventional scalar timestep
variables. While task-specific adaptations and autoregressive models have
sought to address these challenges, they remain constrained by computational
inefficiency, catastrophic forgetting, or narrow applicability. In this work,
we present Pusa, a groundbreaking paradigm that leverages vectorized timestep
adaptation (VTA) to enable fine-grained temporal control within a unified video
diffusion framework. Besides, VTA is a non-destructive adaptation, which means
it fully preserves the capabilities of the base model. By finetuning the SOTA
Wan2.1-T2V-14B model with VTA, we achieve unprecedented efficiency --
surpassing the performance of Wan-I2V-14B with leq 1/200 of the training
cost (\500 vs. \geq 100,000) and leq 1/2500 of the dataset size (4K vs.
geq 10M samples). Pusa not only sets a new standard for image-to-video (I2V)
generation, achieving a VBench-I2V total score of 87.32\% (vs. 86.86\% of
Wan-I2V-14B), but also unlocks many zero-shot multi-task capabilities such as
start-end frames and video extension -- all without task-specific training.
Meanwhile, Pusa can still perform text-to-video generation. Mechanistic
analyses reveal that our approach preserves the foundation model's generative
priors while surgically injecting temporal dynamics, avoiding the combinatorial
explosion inherent to vectorized timesteps. This work establishes a scalable,
efficient, and versatile paradigm for next-generation video synthesis,
democratizing high-fidelity video generation for research and industry alike.
Code is open-sourced at https://github.com/Yaofang-Liu/Pusa-VidGen