ChatPaper.aiChatPaper

FastVMT: 비디오 모션 전달에서의 중복성 제거

FastVMT: Eliminating Redundancy in Video Motion Transfer

February 5, 2026
저자: Yue Ma, Zhikai Wang, Tianhao Ren, Mingzhe Zheng, Hongyu Liu, Jiayi Guo, Mark Fong, Yuxuan Xue, Zixiang Zhao, Konrad Schindler, Qifeng Chen, Linfeng Zhang
cs.AI

초록

비디오 모션 전달은 참조 비디오에서 관찰된 동작 패턴을 전달하면서 텍스트 프롬프트에 따라 시각적 콘텐츠를 생성하여 비디오를 합성하는 것을 목표로 합니다. 최근 방법들은 주로 Diffusion Transformer(DiT) 아키텍처를 사용합니다. 만족스러운 실행 시간을 달성하기 위해 여러 방법이 DiT 내 계산 가속을 시도하지만, 구조적 비효율성의 근본 원인을 해결하지 못하고 있습니다. 본 연구에서는 기존 연구에서 두 가지 유형의 계산적 중복성을 식별하고 제거합니다: 동작 중복성은 프레임 간 동작이 작고 부드럽다는 사실을 일반적인 DiT 아키텍처가 반영하지 않아 발생하며, 그래디언트 중복성은 디퓨전 경로를 따라 그래디언트가 천천히 변화한다는 점을 간과할 때 발생합니다. 동작 중복성을 완화하기 위해 해당 어텐션 레이어를 로컬 영역으로 마스킹하여 불필요하게 먼 이미지 영역 간의 상호 작용 가중치가 계산되지 않도록 합니다. 그래디언트 중복성을 활용하기 위해 이전 디퓨전 단계의 그래디언트를 재사용하고 불필요한 그래디언트 계산을 건너뛰는 최적화 기법을 설계합니다. FastVMT는 평균 3.43배의 속도 향상을 달성하면서도 생성된 비디오의 시각적 정확도나 시간적 일관성을 저하시키지 않습니다.
English
Video motion transfer aims to synthesize videos by generating visual content according to a text prompt while transferring the motion pattern observed in a reference video. Recent methods predominantly use the Diffusion Transformer (DiT) architecture. To achieve satisfactory runtime, several methods attempt to accelerate the computations in the DiT, but fail to address structural sources of inefficiency. In this work, we identify and remove two types of computational redundancy in earlier work: motion redundancy arises because the generic DiT architecture does not reflect the fact that frame-to-frame motion is small and smooth; gradient redundancy occurs if one ignores that gradients change slowly along the diffusion trajectory. To mitigate motion redundancy, we mask the corresponding attention layers to a local neighborhood such that interaction weights are not computed unnecessarily distant image regions. To exploit gradient redundancy, we design an optimization scheme that reuses gradients from previous diffusion steps and skips unwarranted gradient computations. On average, FastVMT achieves a 3.43x speedup without degrading the visual fidelity or the temporal consistency of the generated videos.
PDF12February 7, 2026