OmniTransfer: Framework All-in-one per il Trasferimento Spazio-temporale Video

Abstract

I video trasmettono informazioni più ricche rispetto alle immagini o al testo, catturando sia le dinamiche spaziali che temporali. Tuttavia, la maggior parte dei metodi di personalizzazione video esistenti si basa su immagini di riferimento o su precedenti temporali specifici per il compito, non riuscendo a sfruttare appieno le ricche informazioni spazio-temporali intrinseche ai video, limitando così la flessibilità e la generalizzazione nella generazione video. Per affrontare queste limitazioni, proponiamo OmniTransfer, un framework unificato per il trasferimento video spazio-temporale. Esso sfrutta le informazioni multi-vista tra i fotogrammi per migliorare la coerenza dell'aspetto e utilizza indizi temporali per abilitare un controllo temporale fine. Per unificare varie attività di trasferimento video, OmniTransfer incorpora tre progetti chiave: Task-aware Positional Bias, che sfrutta in modo adattivo le informazioni del video di riferimento per migliorare l'allineamento temporale o la coerenza dell'aspetto; Reference-decoupled Causal Learning, che separa i rami di riferimento e target per consentire un trasferimento preciso del riferimento migliorando l'efficienza; e Task-adaptive Multimodal Alignment, che utilizza una guida semantica multimodale per distinguere dinamicamente e affrontare diversi compiti. Esperimenti estensivi mostrano che OmniTransfer supera i metodi esistenti nel trasferimento di aspetto (ID e stile) e temporale (movimento della telecamera ed effetti video), eguagliando allo stesso tempo i metodi guidati dalla postura nel trasferimento del movimento senza utilizzare la postura, stabilendo un nuovo paradigma per una generazione video flessibile e ad alta fedeltà.

English

Videos convey richer information than images or text, capturing both spatial and temporal dynamics. However, most existing video customization methods rely on reference images or task-specific temporal priors, failing to fully exploit the rich spatio-temporal information inherent in videos, thereby limiting flexibility and generalization in video generation. To address these limitations, we propose OmniTransfer, a unified framework for spatio-temporal video transfer. It leverages multi-view information across frames to enhance appearance consistency and exploits temporal cues to enable fine-grained temporal control. To unify various video transfer tasks, OmniTransfer incorporates three key designs: Task-aware Positional Bias that adaptively leverages reference video information to improve temporal alignment or appearance consistency; Reference-decoupled Causal Learning separating reference and target branches to enable precise reference transfer while improving efficiency; and Task-adaptive Multimodal Alignment using multimodal semantic guidance to dynamically distinguish and tackle different tasks. Extensive experiments show that OmniTransfer outperforms existing methods in appearance (ID and style) and temporal transfer (camera movement and video effects), while matching pose-guided methods in motion transfer without using pose, establishing a new paradigm for flexible, high-fidelity video generation.

OmniTransfer: Framework All-in-one per il Trasferimento Spazio-temporale Video

OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer

Abstract

Support