DynVFX: Het verrijken van echte video's met dynamische inhoud
DynVFX: Augmenting Real Videos with Dynamic Content
February 5, 2025
Auteurs: Danah Yatim, Rafail Fridman, Omer Bar-Tal, Tali Dekel
cs.AI
Samenvatting
We presenteren een methode voor het verrijken van real-world video's met nieuw gegenereerde dynamische inhoud. Gegeven een invoervideo en een eenvoudige door de gebruiker verstrekte tekstinstructie die de gewenste inhoud beschrijft, synthetiseert onze methode dynamische objecten of complexe scène-effecten die op natuurlijke wijze interacteren met de bestaande scène in de loop van de tijd. De positie, verschijning en beweging van de nieuwe inhoud worden naadloos geïntegreerd in de originele beelden, waarbij rekening wordt gehouden met camerabeweging, occlusies en interacties met andere dynamische objecten in de scène, resulterend in een samenhangende en realistische uitvoervideo. We bereiken dit via een zero-shot, training-vrij raamwerk dat gebruikmaakt van een vooraf getrainde tekst-naar-video diffusie transformer om de nieuwe inhoud te synthetiseren en een vooraf getraind Vision Language Model om de verrijkte scène gedetailleerd voor te stellen. Specifiek introduceren we een nieuwe op inferentie gebaseerde methode die kenmerken binnen het aandachtsmechanisme manipuleert, waardoor nauwkeurige lokaliseren en naadloze integratie van de nieuwe inhoud mogelijk is terwijl de integriteit van de originele scène behouden blijft. Onze methode is volledig geautomatiseerd en vereist slechts een eenvoudige gebruikersinstructie. We tonen de effectiviteit ervan aan op een breed scala van bewerkingen toegepast op real-world video's, met diverse objecten en scenario's die zowel camerabeweging als objectbeweging omvatten.
English
We present a method for augmenting real-world videos with newly generated
dynamic content. Given an input video and a simple user-provided text
instruction describing the desired content, our method synthesizes dynamic
objects or complex scene effects that naturally interact with the existing
scene over time. The position, appearance, and motion of the new content are
seamlessly integrated into the original footage while accounting for camera
motion, occlusions, and interactions with other dynamic objects in the scene,
resulting in a cohesive and realistic output video. We achieve this via a
zero-shot, training-free framework that harnesses a pre-trained text-to-video
diffusion transformer to synthesize the new content and a pre-trained Vision
Language Model to envision the augmented scene in detail. Specifically, we
introduce a novel inference-based method that manipulates features within the
attention mechanism, enabling accurate localization and seamless integration of
the new content while preserving the integrity of the original scene. Our
method is fully automated, requiring only a simple user instruction. We
demonstrate its effectiveness on a wide range of edits applied to real-world
videos, encompassing diverse objects and scenarios involving both camera and
object motion.Summary
AI-Generated Summary