ChatPaper.aiChatPaper

PUSA V1.0 : Dépasser Wan-I2V avec un coût d'entraînement de 500 $ grâce à l'adaptation vectorisée des pas de temps

PUSA V1.0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation

July 22, 2025
papers.authors: Yaofang Liu, Yumeng Ren, Aitor Artola, Yuxuan Hu, Xiaodong Cun, Xiaotong Zhao, Alan Zhao, Raymond H. Chan, Suiyun Zhang, Rui Liu, Dandan Tu, Jean-Michel Morel
cs.AI

papers.abstract

Les progrès rapides des modèles de diffusion vidéo ont été entravés par des limitations fondamentales dans la modélisation temporelle, en particulier la synchronisation rigide de l'évolution des images imposée par les variables scalaires de pas de temps conventionnelles. Bien que des adaptations spécifiques à la tâche et des modèles autorégressifs aient cherché à relever ces défis, ils restent limités par une inefficacité computationnelle, un oubli catastrophique ou une applicabilité restreinte. Dans ce travail, nous présentons Pusa, un paradigme révolutionnaire qui exploite l'adaptation vectorisée des pas de temps (VTA) pour permettre un contrôle temporel fin au sein d'un cadre unifié de diffusion vidéo. Par ailleurs, la VTA est une adaptation non destructive, ce qui signifie qu'elle préserve pleinement les capacités du modèle de base. En affinant le modèle Wan2.1-T2V-14B de pointe avec la VTA, nous atteignons une efficacité sans précédent — surpassant les performances de Wan-I2V-14B avec ≤ 1/200 du coût d'entraînement (\500 vs. \geq 100,000) et ≤ 1/2500 de la taille du jeu de données (4K vs. \geq 10M échantillons). Pusa établit non seulement une nouvelle norme pour la génération d'images à vidéo (I2V), atteignant un score total VBench-I2V de 87,32 % (contre 86,86 % pour Wan-I2V-14B), mais débloque également de nombreuses capacités multi-tâches en zero-shot telles que la génération d'images de début et de fin et l'extension vidéo — le tout sans entraînement spécifique à la tâche. Parallèlement, Pusa peut toujours effectuer la génération de texte à vidéo. Des analyses mécanistes révèlent que notre approche préserve les a priori génératifs du modèle de base tout en injectant de manière chirurgicale des dynamiques temporelles, évitant l'explosion combinatoire inhérente aux pas de temps vectorisés. Ce travail établit un paradigme évolutif, efficace et polyvalent pour la synthèse vidéo de nouvelle génération, démocratisant la génération de vidéos haute fidélité pour la recherche et l'industrie. Le code est open-source à l'adresse https://github.com/Yaofang-Liu/Pusa-VidGen.
English
The rapid advancement of video diffusion models has been hindered by fundamental limitations in temporal modeling, particularly the rigid synchronization of frame evolution imposed by conventional scalar timestep variables. While task-specific adaptations and autoregressive models have sought to address these challenges, they remain constrained by computational inefficiency, catastrophic forgetting, or narrow applicability. In this work, we present Pusa, a groundbreaking paradigm that leverages vectorized timestep adaptation (VTA) to enable fine-grained temporal control within a unified video diffusion framework. Besides, VTA is a non-destructive adaptation, which means it fully preserves the capabilities of the base model. By finetuning the SOTA Wan2.1-T2V-14B model with VTA, we achieve unprecedented efficiency -- surpassing the performance of Wan-I2V-14B with leq 1/200 of the training cost (\500 vs. \geq 100,000) and leq 1/2500 of the dataset size (4K vs. geq 10M samples). Pusa not only sets a new standard for image-to-video (I2V) generation, achieving a VBench-I2V total score of 87.32\% (vs. 86.86\% of Wan-I2V-14B), but also unlocks many zero-shot multi-task capabilities such as start-end frames and video extension -- all without task-specific training. Meanwhile, Pusa can still perform text-to-video generation. Mechanistic analyses reveal that our approach preserves the foundation model's generative priors while surgically injecting temporal dynamics, avoiding the combinatorial explosion inherent to vectorized timesteps. This work establishes a scalable, efficient, and versatile paradigm for next-generation video synthesis, democratizing high-fidelity video generation for research and industry alike. Code is open-sourced at https://github.com/Yaofang-Liu/Pusa-VidGen
PDF91July 24, 2025