ChatPaper.aiChatPaper

DynVFX: Erweitern von echten Videos mit dynamischen Inhalten

DynVFX: Augmenting Real Videos with Dynamic Content

February 5, 2025
Autoren: Danah Yatim, Rafail Fridman, Omer Bar-Tal, Tali Dekel
cs.AI

Zusammenfassung

Wir präsentieren eine Methode zur Erweiterung von realen Videos mit neu generierten dynamischen Inhalten. Ausgehend von einem Eingangsvideo und einer einfachen, vom Benutzer bereitgestellten Textanweisung, die den gewünschten Inhalt beschreibt, synthetisiert unsere Methode dynamische Objekte oder komplexe Szeneneffekte, die natürlich mit der bestehenden Szene im Laufe der Zeit interagieren. Die Position, das Erscheinungsbild und die Bewegung des neuen Inhalts werden nahtlos in das Originalmaterial integriert, wobei Kamerabewegungen, Verdeckungen und Interaktionen mit anderen dynamischen Objekten in der Szene berücksichtigt werden, was zu einem kohärenten und realistischen Ausgabevideo führt. Dies wird durch ein Zero-Shot-, trainingsfreies Framework erreicht, das einen vortrainierten Text-zu-Video-Diffusionstransformer nutzt, um den neuen Inhalt zu synthetisieren, und ein vortrainiertes Vision-Sprachmodell, um die erweiterte Szene detailliert zu visualisieren. Insbesondere stellen wir eine neuartige inferenzbasierte Methode vor, die Merkmale innerhalb des Aufmerksamkeitsmechanismus manipuliert, um eine genaue Lokalisierung und nahtlose Integration des neuen Inhalts zu ermöglichen, während die Integrität der Originalszene erhalten bleibt. Unsere Methode ist vollständig automatisiert und erfordert lediglich eine einfache Benutzeranweisung. Wir zeigen ihre Wirksamkeit bei einer Vielzahl von Bearbeitungen an realen Videos, die verschiedene Objekte und Szenarien mit Kamera- und Objektbewegungen umfassen.
English
We present a method for augmenting real-world videos with newly generated dynamic content. Given an input video and a simple user-provided text instruction describing the desired content, our method synthesizes dynamic objects or complex scene effects that naturally interact with the existing scene over time. The position, appearance, and motion of the new content are seamlessly integrated into the original footage while accounting for camera motion, occlusions, and interactions with other dynamic objects in the scene, resulting in a cohesive and realistic output video. We achieve this via a zero-shot, training-free framework that harnesses a pre-trained text-to-video diffusion transformer to synthesize the new content and a pre-trained Vision Language Model to envision the augmented scene in detail. Specifically, we introduce a novel inference-based method that manipulates features within the attention mechanism, enabling accurate localization and seamless integration of the new content while preserving the integrity of the original scene. Our method is fully automated, requiring only a simple user instruction. We demonstrate its effectiveness on a wide range of edits applied to real-world videos, encompassing diverse objects and scenarios involving both camera and object motion.

Summary

AI-Generated Summary

PDF303February 7, 2025