ChatPaper.aiChatPaper

OmniTransfer : Un cadre tout-en un pour le transfert vidéo spatio-temporel

OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer

January 20, 2026
papers.authors: Pengze Zhang, Yanze Wu, Mengtian Li, Xu Bai, Songtao Zhao, Fulong Ye, Chong Mou, Xinghui Li, Zhuowei Chen, Qian He, Mingyuan Gao
cs.AI

papers.abstract

Les vidéos véhiculent une information plus riche que les images ou le texte, en capturant à la fois les dynamiques spatiales et temporelles. Cependant, la plupart des méthodes existantes de personnalisation vidéo s'appuient sur des images de référence ou des connaissances temporelles spécifiques à une tâche, ne parvenant pas à exploiter pleinement les riches informations spatio-temporelles inhérentes aux vidéos, limitant ainsi la flexibilité et la généralisation dans la génération vidéo. Pour résoudre ces limitations, nous proposons OmniTransfer, un cadre unifié pour le transfert spatio-temporel vidéo. Il tire parti des informations multi-vues entre les images pour améliorer la cohérence d'apparence et exploite les indices temporels pour permettre un contrôle temporel fin. Pour unifier les diverses tâches de transfert vidéo, OmniTransfer intègre trois conceptions clés : un Biais Positionnel Conscient de la Tâche qui exploite adaptativement l'information de la vidéo de référence pour améliorer l'alignement temporel ou la cohérence d'apparence ; un Apprentissage Causal à Référence Découplée séparant les branches de référence et cible pour permettre un transfert de référence précis tout en améliorant l'efficacité ; et un Alignement Multimodal Adaptatif utilisant un guidage sémantique multimodal pour distinguer et traiter dynamiquement différentes tâches. Des expériences approfondies montrent qu'OmniTransfer surpasse les méthodes existantes en transfert d'apparence (ID et style) et temporel (mouvement de caméra et effets vidéo), tout en égalant les méthodes guidées par la pose en transfert de mouvement sans utiliser la pose, établissant un nouveau paradigme pour une génération vidéo flexible et fidèle.
English
Videos convey richer information than images or text, capturing both spatial and temporal dynamics. However, most existing video customization methods rely on reference images or task-specific temporal priors, failing to fully exploit the rich spatio-temporal information inherent in videos, thereby limiting flexibility and generalization in video generation. To address these limitations, we propose OmniTransfer, a unified framework for spatio-temporal video transfer. It leverages multi-view information across frames to enhance appearance consistency and exploits temporal cues to enable fine-grained temporal control. To unify various video transfer tasks, OmniTransfer incorporates three key designs: Task-aware Positional Bias that adaptively leverages reference video information to improve temporal alignment or appearance consistency; Reference-decoupled Causal Learning separating reference and target branches to enable precise reference transfer while improving efficiency; and Task-adaptive Multimodal Alignment using multimodal semantic guidance to dynamically distinguish and tackle different tasks. Extensive experiments show that OmniTransfer outperforms existing methods in appearance (ID and style) and temporal transfer (camera movement and video effects), while matching pose-guided methods in motion transfer without using pose, establishing a new paradigm for flexible, high-fidelity video generation.
PDF294January 22, 2026