VOID: Exclusão de Objetos e Interações em Vídeo

Resumo

Os métodos existentes de remoção de objetos em vídeo destacam-se na reconstrução de conteúdo "atrás" do objeto e na correção de artefatos de aparência, como sombras e reflexos. No entanto, quando o objeto removido possui interações mais significativas, como colisões com outros objetos, os modelos atuais falham em corrigi-las e produzem resultados implausíveis. Apresentamos o VOID, uma estrutura de remoção de objetos em vídeo projetada para realizar reconstrução fisicamente plausível nesses cenários complexos. Para treinar o modelo, geramos um novo conjunto de dados pareados de remoções contrafactuais de objetos usando Kubric e HUMOTO, onde a remoção de um objeto requer a alteração de interações físicas subsequentes. Durante a inferência, um modelo de visão e linguagem identifica as regiões da cena afetadas pelo objeto removido. Essas regiões são então usadas para orientar um modelo de difusão de vídeo que gera resultados contrafactuais fisicamente consistentes. Experimentos com dados sintéticos e reais mostram que nossa abordagem preserva melhor a dinâmica consistente da cena após a remoção do objeto em comparação com métodos anteriores de remoção de objetos em vídeo. Esperamos que esta estrutura esclareça como tornar os modelos de edição de vídeo melhores simuladores do mundo por meio do raciocínio causal de alto nível.

English

Existing video object removal methods excel at inpainting content "behind" the object and correcting appearance-level artifacts such as shadows and reflections. However, when the removed object has more significant interactions, such as collisions with other objects, current models fail to correct them and produce implausible results. We present VOID, a video object removal framework designed to perform physically-plausible inpainting in these complex scenarios. To train the model, we generate a new paired dataset of counterfactual object removals using Kubric and HUMOTO, where removing an object requires altering downstream physical interactions. During inference, a vision-language model identifies regions of the scene affected by the removed object. These regions are then used to guide a video diffusion model that generates physically consistent counterfactual outcomes. Experiments on both synthetic and real data show that our approach better preserves consistent scene dynamics after object removal compared to prior video object removal methods. We hope this framework sheds light on how to make video editing models better simulators of the world through high-level causal reasoning.

VOID: Exclusão de Objetos e Interações em Vídeo

VOID: Video Object and Interaction Deletion

Resumo

Support