ChatPaper.aiChatPaper

DynVFX: Mejorando Videos Reales con Contenido Dinámico

DynVFX: Augmenting Real Videos with Dynamic Content

February 5, 2025
Autores: Danah Yatim, Rafail Fridman, Omer Bar-Tal, Tali Dekel
cs.AI

Resumen

Presentamos un método para aumentar videos del mundo real con contenido dinámico recién generado. Dado un video de entrada y una instrucción de texto simple proporcionada por el usuario que describe el contenido deseado, nuestro método sintetiza objetos dinámicos o efectos de escena complejos que interactúan de forma natural con la escena existente a lo largo del tiempo. La posición, apariencia y movimiento del nuevo contenido se integran perfectamente en la grabación original teniendo en cuenta el movimiento de la cámara, las oclusiones y las interacciones con otros objetos dinámicos en la escena, lo que resulta en un video de salida cohesivo y realista. Logramos esto a través de un marco de trabajo sin entrenamiento de cero disparos que aprovecha un transformador de difusión texto a video pre-entrenado para sintetizar el nuevo contenido y un Modelo de Visión y Lenguaje pre-entrenado para visualizar la escena aumentada en detalle. Específicamente, presentamos un método novedoso basado en inferencia que manipula características dentro del mecanismo de atención, lo que permite una localización precisa e integración perfecta del nuevo contenido mientras se preserva la integridad de la escena original. Nuestro método es completamente automatizado, requiriendo solo una instrucción simple del usuario. Demostramos su efectividad en una amplia gama de ediciones aplicadas a videos del mundo real, que abarcan objetos diversos y escenarios que involucran tanto el movimiento de la cámara como de objetos.
English
We present a method for augmenting real-world videos with newly generated dynamic content. Given an input video and a simple user-provided text instruction describing the desired content, our method synthesizes dynamic objects or complex scene effects that naturally interact with the existing scene over time. The position, appearance, and motion of the new content are seamlessly integrated into the original footage while accounting for camera motion, occlusions, and interactions with other dynamic objects in the scene, resulting in a cohesive and realistic output video. We achieve this via a zero-shot, training-free framework that harnesses a pre-trained text-to-video diffusion transformer to synthesize the new content and a pre-trained Vision Language Model to envision the augmented scene in detail. Specifically, we introduce a novel inference-based method that manipulates features within the attention mechanism, enabling accurate localization and seamless integration of the new content while preserving the integrity of the original scene. Our method is fully automated, requiring only a simple user instruction. We demonstrate its effectiveness on a wide range of edits applied to real-world videos, encompassing diverse objects and scenarios involving both camera and object motion.

Summary

AI-Generated Summary

PDF303February 7, 2025