DynVFX: Дополнение реальных видеороликов динамическим контентом
DynVFX: Augmenting Real Videos with Dynamic Content
February 5, 2025
Авторы: Danah Yatim, Rafail Fridman, Omer Bar-Tal, Tali Dekel
cs.AI
Аннотация
Мы представляем метод для дополнения видеороликов из реального мира новым сгенерированным динамическим контентом. Учитывая входное видео и простую текстовую инструкцию, предоставленную пользователем и описывающую желаемый контент, наш метод синтезирует динамические объекты или сложные эффекты сцены, которые естественно взаимодействуют с существующей сценой со временем. Положение, внешний вид и движение нового контента плавно интегрируются в оригинальный материал, учитывая движение камеры, заслонения и взаимодействия с другими динамическими объектами на сцене, что приводит к цельному и реалистичному видеоролику. Мы достигаем этого с помощью нулевого обучения, рамки, которая использует предварительно обученный трансформер распространения текста в видео для синтеза нового контента и предварительно обученной модели видео-языка для детального представления дополненной сцены. В частности, мы представляем новый метод на основе вывода, который манипулирует функциями в механизме внимания, обеспечивая точную локализацию и плавную интеграцию нового контента, сохраняя целостность оригинальной сцены. Наш метод полностью автоматизирован, требуя только простую инструкцию пользователя. Мы демонстрируем его эффективность на широком спектре изменений, примененных к видеороликам из реального мира, охватывающих различные объекты и сценарии, включающие как движение камеры, так и объекта.
English
We present a method for augmenting real-world videos with newly generated
dynamic content. Given an input video and a simple user-provided text
instruction describing the desired content, our method synthesizes dynamic
objects or complex scene effects that naturally interact with the existing
scene over time. The position, appearance, and motion of the new content are
seamlessly integrated into the original footage while accounting for camera
motion, occlusions, and interactions with other dynamic objects in the scene,
resulting in a cohesive and realistic output video. We achieve this via a
zero-shot, training-free framework that harnesses a pre-trained text-to-video
diffusion transformer to synthesize the new content and a pre-trained Vision
Language Model to envision the augmented scene in detail. Specifically, we
introduce a novel inference-based method that manipulates features within the
attention mechanism, enabling accurate localization and seamless integration of
the new content while preserving the integrity of the original scene. Our
method is fully automated, requiring only a simple user instruction. We
demonstrate its effectiveness on a wide range of edits applied to real-world
videos, encompassing diverse objects and scenarios involving both camera and
object motion.Summary
AI-Generated Summary