DynVFX: Arricchire i Video Reali con Contenuti Dinamici

Abstract

Presentiamo un metodo per arricchire i video del mondo reale con contenuti dinamici appena generati. Dato un video di input e una semplice istruzione testuale fornita dall'utente che descrive il contenuto desiderato, il nostro metodo sintetizza oggetti dinamici o effetti complessi di scena che interagiscono in modo naturale con la scena esistente nel tempo. La posizione, l'aspetto e il movimento del nuovo contenuto sono integrati in modo fluido nel filmato originale tenendo conto del movimento della telecamera, delle occlusioni e delle interazioni con altri oggetti dinamici nella scena, producendo un video di output coerente e realistico. Realizziamo ciò attraverso un framework senza addestramento che sfrutta un transformer di diffusione testo-video preaddestrato per sintetizzare il nuovo contenuto e un Modello di Linguaggio Visivo preaddestrato per immaginare dettagliatamente la scena arricchita. In particolare, introduciamo un nuovo metodo basato sull'inferenza che manipola le caratteristiche all'interno del meccanismo di attenzione, consentendo una localizzazione accurata e un'integrazione fluida del nuovo contenuto preservando l'integrità della scena originale. Il nostro metodo è completamente automatizzato, richiedendo solo una semplice istruzione dell'utente. Dimostriamo la sua efficacia su una vasta gamma di modifiche applicate a video del mondo reale, che comprendono oggetti diversi e scenari che coinvolgono sia il movimento della telecamera che degli oggetti.

English

We present a method for augmenting real-world videos with newly generated dynamic content. Given an input video and a simple user-provided text instruction describing the desired content, our method synthesizes dynamic objects or complex scene effects that naturally interact with the existing scene over time. The position, appearance, and motion of the new content are seamlessly integrated into the original footage while accounting for camera motion, occlusions, and interactions with other dynamic objects in the scene, resulting in a cohesive and realistic output video. We achieve this via a zero-shot, training-free framework that harnesses a pre-trained text-to-video diffusion transformer to synthesize the new content and a pre-trained Vision Language Model to envision the augmented scene in detail. Specifically, we introduce a novel inference-based method that manipulates features within the attention mechanism, enabling accurate localization and seamless integration of the new content while preserving the integrity of the original scene. Our method is fully automated, requiring only a simple user instruction. We demonstrate its effectiveness on a wide range of edits applied to real-world videos, encompassing diverse objects and scenarios involving both camera and object motion.

DynVFX: Arricchire i Video Reali con Contenuti Dinamici

DynVFX: Augmenting Real Videos with Dynamic Content

Abstract

Support