PUSA V1.0: Преодоление Wan-I2V с затратами на обучение в $500 благодаря адаптации векторных временных шагов
PUSA V1.0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation
July 22, 2025
Авторы: Yaofang Liu, Yumeng Ren, Aitor Artola, Yuxuan Hu, Xiaodong Cun, Xiaotong Zhao, Alan Zhao, Raymond H. Chan, Suiyun Zhang, Rui Liu, Dandan Tu, Jean-Michel Morel
cs.AI
Аннотация
Быстрое развитие моделей диффузии видео сталкивается с фундаментальными ограничениями в области временного моделирования, в частности, с жесткой синхронизацией эволюции кадров, накладываемой традиционными скалярными переменными временных шагов. Хотя специализированные адаптации и авторегрессивные модели пытались решить эти проблемы, они остаются ограниченными из-за вычислительной неэффективности, катастрофического забывания или узкой применимости. В данной работе мы представляем Pusa, революционную парадигму, которая использует векторную адаптацию временных шагов (VTA) для обеспечения детализированного временного контроля в рамках единой модели диффузии видео. Кроме того, VTA является неразрушающей адаптацией, что означает полное сохранение возможностей базовой модели. Настроив модель Wan2.1-T2V-14B с использованием VTA, мы достигаем беспрецедентной эффективности — превосходя производительность Wan-I2V-14B при затратах на обучение, не превышающих 1/200 (\500 против \geq 100,000), и размере набора данных, не превышающем 1/2500 (4K против \geq 10M образцов). Pusa не только устанавливает новый стандарт для генерации изображений в видео (I2V), достигая общего балла VBench-I2V 87.32\% (против 86.86\% у Wan-I2V-14B), но также открывает множество возможностей для выполнения многозадачных операций без дополнительного обучения, таких как генерация начальных и конечных кадров и расширение видео. При этом Pusa сохраняет способность к генерации видео из текста. Механистический анализ показывает, что наш подход сохраняет генеративные приоритеты базовой модели, точно внедряя временную динамику и избегая комбинаторного взрыва, присущего векторным временным шагам. Эта работа создает масштабируемую, эффективную и универсальную парадигму для следующего поколения синтеза видео, делая генерацию высококачественного видео доступной как для исследований, так и для промышленности. Код доступен по адресу: https://github.com/Yaofang-Liu/Pusa-VidGen.
English
The rapid advancement of video diffusion models has been hindered by
fundamental limitations in temporal modeling, particularly the rigid
synchronization of frame evolution imposed by conventional scalar timestep
variables. While task-specific adaptations and autoregressive models have
sought to address these challenges, they remain constrained by computational
inefficiency, catastrophic forgetting, or narrow applicability. In this work,
we present Pusa, a groundbreaking paradigm that leverages vectorized timestep
adaptation (VTA) to enable fine-grained temporal control within a unified video
diffusion framework. Besides, VTA is a non-destructive adaptation, which means
it fully preserves the capabilities of the base model. By finetuning the SOTA
Wan2.1-T2V-14B model with VTA, we achieve unprecedented efficiency --
surpassing the performance of Wan-I2V-14B with leq 1/200 of the training
cost (\500 vs. \geq 100,000) and leq 1/2500 of the dataset size (4K vs.
geq 10M samples). Pusa not only sets a new standard for image-to-video (I2V)
generation, achieving a VBench-I2V total score of 87.32\% (vs. 86.86\% of
Wan-I2V-14B), but also unlocks many zero-shot multi-task capabilities such as
start-end frames and video extension -- all without task-specific training.
Meanwhile, Pusa can still perform text-to-video generation. Mechanistic
analyses reveal that our approach preserves the foundation model's generative
priors while surgically injecting temporal dynamics, avoiding the combinatorial
explosion inherent to vectorized timesteps. This work establishes a scalable,
efficient, and versatile paradigm for next-generation video synthesis,
democratizing high-fidelity video generation for research and industry alike.
Code is open-sourced at https://github.com/Yaofang-Liu/Pusa-VidGen