DynVFX: Arricchire i Video Reali con Contenuti Dinamici
DynVFX: Augmenting Real Videos with Dynamic Content
February 5, 2025
Autori: Danah Yatim, Rafail Fridman, Omer Bar-Tal, Tali Dekel
cs.AI
Abstract
Presentiamo un metodo per arricchire i video del mondo reale con contenuti dinamici appena generati. Dato un video di input e una semplice istruzione testuale fornita dall'utente che descrive il contenuto desiderato, il nostro metodo sintetizza oggetti dinamici o effetti complessi di scena che interagiscono in modo naturale con la scena esistente nel tempo. La posizione, l'aspetto e il movimento del nuovo contenuto sono integrati in modo fluido nel filmato originale tenendo conto del movimento della telecamera, delle occlusioni e delle interazioni con altri oggetti dinamici nella scena, producendo un video di output coerente e realistico. Realizziamo ciò attraverso un framework senza addestramento che sfrutta un transformer di diffusione testo-video preaddestrato per sintetizzare il nuovo contenuto e un Modello di Linguaggio Visivo preaddestrato per immaginare dettagliatamente la scena arricchita. In particolare, introduciamo un nuovo metodo basato sull'inferenza che manipola le caratteristiche all'interno del meccanismo di attenzione, consentendo una localizzazione accurata e un'integrazione fluida del nuovo contenuto preservando l'integrità della scena originale. Il nostro metodo è completamente automatizzato, richiedendo solo una semplice istruzione dell'utente. Dimostriamo la sua efficacia su una vasta gamma di modifiche applicate a video del mondo reale, che comprendono oggetti diversi e scenari che coinvolgono sia il movimento della telecamera che degli oggetti.
English
We present a method for augmenting real-world videos with newly generated
dynamic content. Given an input video and a simple user-provided text
instruction describing the desired content, our method synthesizes dynamic
objects or complex scene effects that naturally interact with the existing
scene over time. The position, appearance, and motion of the new content are
seamlessly integrated into the original footage while accounting for camera
motion, occlusions, and interactions with other dynamic objects in the scene,
resulting in a cohesive and realistic output video. We achieve this via a
zero-shot, training-free framework that harnesses a pre-trained text-to-video
diffusion transformer to synthesize the new content and a pre-trained Vision
Language Model to envision the augmented scene in detail. Specifically, we
introduce a novel inference-based method that manipulates features within the
attention mechanism, enabling accurate localization and seamless integration of
the new content while preserving the integrity of the original scene. Our
method is fully automated, requiring only a simple user instruction. We
demonstrate its effectiveness on a wide range of edits applied to real-world
videos, encompassing diverse objects and scenarios involving both camera and
object motion.Summary
AI-Generated Summary