ChatPaper.aiChatPaper

OmniTransfer: Marco Integral para la Transferencia Espacio-Temporal de Video

OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer

January 20, 2026
Autores: Pengze Zhang, Yanze Wu, Mengtian Li, Xu Bai, Songtao Zhao, Fulong Ye, Chong Mou, Xinghui Li, Zhuowei Chen, Qian He, Mingyuan Gao
cs.AI

Resumen

Los videos transmiten información más rica que las imágenes o el texto, capturando tanto dinámicas espaciales como temporales. Sin embargo, la mayoría de los métodos existentes de personalización de videos se basan en imágenes de referencia o conocimientos previos temporales específicos de tareas, sin explotar plenamente la rica información espacio-temporal inherente a los videos, lo que limita la flexibilidad y generalización en la generación de videos. Para abordar estas limitaciones, proponemos OmniTransfer, un marco unificado para la transferencia espacio-temporal de videos. Este aprovecha la información multi-vista entre fotogramas para mejorar la consistencia aparente y explota señales temporales para permitir un control temporal de grano fino. Para unificar diversas tareas de transferencia de video, OmniTransfer incorpora tres diseños clave: Sesgo Posicional Consciente de la Tarea, que aprovecha adaptativamente la información del video de referencia para mejorar la alineación temporal o la consistencia aparente; Aprendizaje Causal con Referencia Desacoplada, que separa las ramas de referencia y objetivo para permitir una transferencia precisa de referencia mientras mejora la eficiencia; y Alineación Multimodal Adaptativa a la Tarea, que utiliza guías semánticas multimodales para distinguir y abordar dinámicamente diferentes tareas. Experimentos exhaustivos demuestran que OmniTransfer supera a los métodos existentes en transferencia aparente (identidad y estilo) y temporal (movimiento de cámara y efectos de video), mientras iguala a los métodos guiados por pose en transferencia de movimiento sin utilizar pose, estableciendo un nuevo paradigma para la generación de videos flexibles y de alta fidelidad.
English
Videos convey richer information than images or text, capturing both spatial and temporal dynamics. However, most existing video customization methods rely on reference images or task-specific temporal priors, failing to fully exploit the rich spatio-temporal information inherent in videos, thereby limiting flexibility and generalization in video generation. To address these limitations, we propose OmniTransfer, a unified framework for spatio-temporal video transfer. It leverages multi-view information across frames to enhance appearance consistency and exploits temporal cues to enable fine-grained temporal control. To unify various video transfer tasks, OmniTransfer incorporates three key designs: Task-aware Positional Bias that adaptively leverages reference video information to improve temporal alignment or appearance consistency; Reference-decoupled Causal Learning separating reference and target branches to enable precise reference transfer while improving efficiency; and Task-adaptive Multimodal Alignment using multimodal semantic guidance to dynamically distinguish and tackle different tasks. Extensive experiments show that OmniTransfer outperforms existing methods in appearance (ID and style) and temporal transfer (camera movement and video effects), while matching pose-guided methods in motion transfer without using pose, establishing a new paradigm for flexible, high-fidelity video generation.
PDF294January 22, 2026