PUSA V1.0: 벡터화된 타임스텝 적응을 통해 $500의 훈련 비용으로 Wan-I2V를 능가하다
PUSA V1.0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation
July 22, 2025
저자: Yaofang Liu, Yumeng Ren, Aitor Artola, Yuxuan Hu, Xiaodong Cun, Xiaotong Zhao, Alan Zhao, Raymond H. Chan, Suiyun Zhang, Rui Liu, Dandan Tu, Jean-Michel Morel
cs.AI
초록
비디오 확산 모델의 급속한 발전은 시간적 모델링의 근본적인 한계, 특히 기존의 스칼라 시간 단계 변수가 부과하는 프레임 진화의 경직된 동기화로 인해 방해를 받아왔다. 작업별 적응 및 자기회귀 모델이 이러한 문제를 해결하려고 시도했지만, 이들은 계산 비효율성, 파국적 망각 또는 제한된 적용 범위에 의해 여전히 제약을 받고 있다. 본 연구에서는 벡터화된 시간 단계 적응(VTA)을 활용하여 통합 비디오 확산 프레임워크 내에서 세밀한 시간적 제어를 가능하게 하는 혁신적인 패러다임인 Pusa를 제시한다. 또한, VTA는 비파괴적 적응으로, 기본 모델의 기능을 완전히 보존한다. SOTA Wan2.1-T2V-14B 모델을 VTA로 미세 조정함으로써, 우리는 전례 없는 효율성을 달성했다 -- Wan-I2V-14B의 성능을 훈련 비용의 1/200 이하(\500 대 \geq 100,000) 및 데이터셋 크기의 1/2500 이하(4K 대 geq 10M 샘플)로 능가했다. Pusa는 이미지-투-비디오(I2V) 생성을 위한 새로운 기준을 설정하며, VBench-I2V 총점 87.32\%(Wan-I2V-14B의 86.86\% 대비)를 달성했을 뿐만 아니라, 시작-종료 프레임 및 비디오 확장과 같은 많은 제로샷 다중 작업 능력을 작업별 훈련 없이도 해제한다. 동시에, Pusa는 텍스트-투-비디오 생성도 수행할 수 있다. 기계적 분석은 우리의 접근 방식이 기본 모델의 생성적 사전 지식을 보존하면서 시간적 역동성을 정밀하게 주입하여 벡터화된 시간 단계에 내재된 조합적 폭발을 피한다는 것을 보여준다. 이 연구는 차세대 비디오 합성을 위한 확장 가능하고 효율적이며 다재다능한 패러다임을 확립하여, 연구 및 산업 분야 모두를 위한 고품질 비디오 생성을 민주화한다. 코드는 https://github.com/Yaofang-Liu/Pusa-VidGen에서 오픈소스로 제공된다.
English
The rapid advancement of video diffusion models has been hindered by
fundamental limitations in temporal modeling, particularly the rigid
synchronization of frame evolution imposed by conventional scalar timestep
variables. While task-specific adaptations and autoregressive models have
sought to address these challenges, they remain constrained by computational
inefficiency, catastrophic forgetting, or narrow applicability. In this work,
we present Pusa, a groundbreaking paradigm that leverages vectorized timestep
adaptation (VTA) to enable fine-grained temporal control within a unified video
diffusion framework. Besides, VTA is a non-destructive adaptation, which means
it fully preserves the capabilities of the base model. By finetuning the SOTA
Wan2.1-T2V-14B model with VTA, we achieve unprecedented efficiency --
surpassing the performance of Wan-I2V-14B with leq 1/200 of the training
cost (\500 vs. \geq 100,000) and leq 1/2500 of the dataset size (4K vs.
geq 10M samples). Pusa not only sets a new standard for image-to-video (I2V)
generation, achieving a VBench-I2V total score of 87.32\% (vs. 86.86\% of
Wan-I2V-14B), but also unlocks many zero-shot multi-task capabilities such as
start-end frames and video extension -- all without task-specific training.
Meanwhile, Pusa can still perform text-to-video generation. Mechanistic
analyses reveal that our approach preserves the foundation model's generative
priors while surgically injecting temporal dynamics, avoiding the combinatorial
explosion inherent to vectorized timesteps. This work establishes a scalable,
efficient, and versatile paradigm for next-generation video synthesis,
democratizing high-fidelity video generation for research and industry alike.
Code is open-sourced at https://github.com/Yaofang-Liu/Pusa-VidGen