DynVFX : Augmentation de vidéos réelles avec du contenu dynamique
DynVFX: Augmenting Real Videos with Dynamic Content
February 5, 2025
Auteurs: Danah Yatim, Rafail Fridman, Omer Bar-Tal, Tali Dekel
cs.AI
Résumé
Nous présentons une méthode pour augmenter des vidéos du monde réel avec du contenu dynamique nouvellement généré. Étant donné une vidéo d'entrée et un texte d'instruction simple fourni par l'utilisateur décrivant le contenu souhaité, notre méthode synthétise des objets dynamiques ou des effets de scène complexes qui interagissent naturellement avec la scène existante au fil du temps. La position, l'apparence et le mouvement du nouveau contenu sont intégrés de manière transparente dans les images originales en tenant compte du mouvement de la caméra, des occlusions et des interactions avec d'autres objets dynamiques dans la scène, ce qui donne une vidéo de sortie cohérente et réaliste. Nous réalisons cela via un cadre sans entraînement, appelé "zero-shot", qui exploite un transformateur de diffusion texte-vidéo pré-entraîné pour synthétiser le nouveau contenu et un modèle de vision langage pré-entraîné pour visualiser en détail la scène augmentée. Plus précisément, nous introduisons une nouvelle méthode basée sur l'inférence qui manipule les caractéristiques au sein du mécanisme d'attention, permettant une localisation précise et une intégration transparente du nouveau contenu tout en préservant l'intégrité de la scène originale. Notre méthode est entièrement automatisée, ne nécessitant qu'une simple instruction de l'utilisateur. Nous démontrons son efficacité sur une large gamme de modifications appliquées à des vidéos du monde réel, englobant des objets divers et des scénarios impliquant à la fois le mouvement de la caméra et des objets.
English
We present a method for augmenting real-world videos with newly generated
dynamic content. Given an input video and a simple user-provided text
instruction describing the desired content, our method synthesizes dynamic
objects or complex scene effects that naturally interact with the existing
scene over time. The position, appearance, and motion of the new content are
seamlessly integrated into the original footage while accounting for camera
motion, occlusions, and interactions with other dynamic objects in the scene,
resulting in a cohesive and realistic output video. We achieve this via a
zero-shot, training-free framework that harnesses a pre-trained text-to-video
diffusion transformer to synthesize the new content and a pre-trained Vision
Language Model to envision the augmented scene in detail. Specifically, we
introduce a novel inference-based method that manipulates features within the
attention mechanism, enabling accurate localization and seamless integration of
the new content while preserving the integrity of the original scene. Our
method is fully automated, requiring only a simple user instruction. We
demonstrate its effectiveness on a wide range of edits applied to real-world
videos, encompassing diverse objects and scenarios involving both camera and
object motion.Summary
AI-Generated Summary