OmniTransfer: 시공간 비디오 전환을 위한 올인원 프레임워크
OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer
January 20, 2026
저자: Pengze Zhang, Yanze Wu, Mengtian Li, Xu Bai, Songtao Zhao, Fulong Ye, Chong Mou, Xinghui Li, Zhuowei Chen, Qian He, Mingyuan Gao
cs.AI
초록
동영상은 공간적 및 시간적 동역학을 모두 포착하여 이미지나 텍스트보다 풍부한 정보를 전달합니다. 그러나 기존 대부분의 동영상 맞춤화 방법은 참조 이미지나 작업별 시간적 사전 정보에 의존하여 동영상 고유의 풍부한 시공간 정보를 완전히 활용하지 못하므로, 동영상 생성의 유연성과 일반화가 제한됩니다. 이러한 한계를 해결하기 위해 우리는 시공간 동영상 전이를 위한 통합 프레임워크인 OmniTransfer를 제안합니다. OmniTransfer는 프레임 간 다중 뷰 정보를 활용하여 외관 일관성을 향상시키고, 시간적 단서를 이용하여 세밀한 시간적 제어를 가능하게 합니다. 다양한 동영상 전이 작업을 통합하기 위해 OmniTransfer는 세 가지 핵심 설계를 포함합니다: 참조 동영상 정보를 적응적으로 활용하여 시간적 정렬 또는 외관 일관성을 개선하는 작업 인식 위치 편향(Task-aware Positional Bias); 참조와 대상 브랜치를 분리하여 정확한 참조 전이를 가능하게 하면서 효율성을 향상시키는 참조 분리 인과 학습(Reference-decoupled Causal Learning); 다중 모달 의미론적 지도를 사용하여 다양한 작업을 동적으로 구분하고 처리하는 작업 적응형 다중 모달 정렬(Task-adaptive Multimodal Alignment). 광범위한 실험을 통해 OmniTransfer가 외관(신원 및 스타일) 및 시간적 전이(카메라 이동 및 동영상 효과)에서 기존 방법을 능가하며, 포즈를 사용하지 않고도 모션 전이에서 포즈 기반 방법과 동등한 성능을 보여, 유연하고 높은 충실도의 동영상 생성을 위한 새로운 패러다임을 정립함을 확인했습니다.
English
Videos convey richer information than images or text, capturing both spatial and temporal dynamics. However, most existing video customization methods rely on reference images or task-specific temporal priors, failing to fully exploit the rich spatio-temporal information inherent in videos, thereby limiting flexibility and generalization in video generation. To address these limitations, we propose OmniTransfer, a unified framework for spatio-temporal video transfer. It leverages multi-view information across frames to enhance appearance consistency and exploits temporal cues to enable fine-grained temporal control. To unify various video transfer tasks, OmniTransfer incorporates three key designs: Task-aware Positional Bias that adaptively leverages reference video information to improve temporal alignment or appearance consistency; Reference-decoupled Causal Learning separating reference and target branches to enable precise reference transfer while improving efficiency; and Task-adaptive Multimodal Alignment using multimodal semantic guidance to dynamically distinguish and tackle different tasks. Extensive experiments show that OmniTransfer outperforms existing methods in appearance (ID and style) and temporal transfer (camera movement and video effects), while matching pose-guided methods in motion transfer without using pose, establishing a new paradigm for flexible, high-fidelity video generation.