ChatPaper.aiChatPaper

DynVFX: Aumentando Vídeos Reais com Conteúdo Dinâmico

DynVFX: Augmenting Real Videos with Dynamic Content

February 5, 2025
Autores: Danah Yatim, Rafail Fridman, Omer Bar-Tal, Tali Dekel
cs.AI

Resumo

Apresentamos um método para aumentar vídeos do mundo real com conteúdo dinâmico recém-gerado. Dado um vídeo de entrada e uma simples instrução de texto fornecida pelo usuário descrevendo o conteúdo desejado, nosso método sintetiza objetos dinâmicos ou efeitos de cena complexos que interagem naturalmente com a cena existente ao longo do tempo. A posição, aparência e movimento do novo conteúdo são integrados de forma contínua na filmagem original, levando em consideração o movimento da câmera, oclusões e interações com outros objetos dinâmicos na cena, resultando em um vídeo de saída coeso e realista. Conseguimos isso por meio de um framework de treinamento zero-shot que utiliza um transformador de difusão texto-vídeo pré-treinado para sintetizar o novo conteúdo e um Modelo de Linguagem Visual pré-treinado para visualizar a cena aumentada em detalhes. Especificamente, introduzimos um método baseado em inferência que manipula características dentro do mecanismo de atenção, permitindo uma localização precisa e integração contínua do novo conteúdo, preservando a integridade da cena original. Nosso método é totalmente automatizado, exigindo apenas uma instrução simples do usuário. Demonstramos sua eficácia em uma ampla gama de edições aplicadas a vídeos do mundo real, abrangendo objetos diversos e cenários envolvendo tanto movimento de câmera quanto de objetos.
English
We present a method for augmenting real-world videos with newly generated dynamic content. Given an input video and a simple user-provided text instruction describing the desired content, our method synthesizes dynamic objects or complex scene effects that naturally interact with the existing scene over time. The position, appearance, and motion of the new content are seamlessly integrated into the original footage while accounting for camera motion, occlusions, and interactions with other dynamic objects in the scene, resulting in a cohesive and realistic output video. We achieve this via a zero-shot, training-free framework that harnesses a pre-trained text-to-video diffusion transformer to synthesize the new content and a pre-trained Vision Language Model to envision the augmented scene in detail. Specifically, we introduce a novel inference-based method that manipulates features within the attention mechanism, enabling accurate localization and seamless integration of the new content while preserving the integrity of the original scene. Our method is fully automated, requiring only a simple user instruction. We demonstrate its effectiveness on a wide range of edits applied to real-world videos, encompassing diverse objects and scenarios involving both camera and object motion.

Summary

AI-Generated Summary

PDF303February 7, 2025