VOID: Eliminación de Objetos e Interacciones en Video

Resumen

Los métodos existentes de eliminación de objetos en video sobresalen en inpintar el contenido "detrás" del objeto y corregir artefactos a nivel de apariencia, como sombras y reflejos. Sin embargo, cuando el objeto eliminado tiene interacciones más significativas, como colisiones con otros objetos, los modelos actuales no logran corregirlas y producen resultados inverosímiles. Presentamos VOID, un marco de trabajo para la eliminación de objetos en video diseñado para realizar un inpintado físicamente plausible en estos escenarios complejos. Para entrenar el modelo, generamos un nuevo conjunto de datos pareado de eliminaciones contrafactuales de objetos utilizando Kubric y HUMOTO, donde eliminar un objeto requiere alterar las interacciones físicas subsiguientes. Durante la inferencia, un modelo de visión y lenguaje identifica las regiones de la escena afectadas por el objeto eliminado. Estas regiones se utilizan luego para guiar un modelo de difusión de video que genera resultados contrafactuales físicamente consistentes. Los experimentos con datos tanto sintéticos como reales muestran que nuestro enfoque preserva mejor la dinámica consistente de la escena después de la eliminación del objeto en comparación con métodos previos de eliminación de objetos en video. Esperamos que este marco de trabajo arroje luz sobre cómo hacer que los modelos de edición de video sean mejores simuladores del mundo mediante el razonamiento causal de alto nivel.

English

Existing video object removal methods excel at inpainting content "behind" the object and correcting appearance-level artifacts such as shadows and reflections. However, when the removed object has more significant interactions, such as collisions with other objects, current models fail to correct them and produce implausible results. We present VOID, a video object removal framework designed to perform physically-plausible inpainting in these complex scenarios. To train the model, we generate a new paired dataset of counterfactual object removals using Kubric and HUMOTO, where removing an object requires altering downstream physical interactions. During inference, a vision-language model identifies regions of the scene affected by the removed object. These regions are then used to guide a video diffusion model that generates physically consistent counterfactual outcomes. Experiments on both synthetic and real data show that our approach better preserves consistent scene dynamics after object removal compared to prior video object removal methods. We hope this framework sheds light on how to make video editing models better simulators of the world through high-level causal reasoning.

VOID: Eliminación de Objetos e Interacciones en Video

VOID: Video Object and Interaction Deletion

Resumen

Support