VOID: Videoobjekt- und Interaktionslöschung
VOID: Video Object and Interaction Deletion
April 2, 2026
Autoren: Saman Motamed, William Harvey, Benjamin Klein, Luc Van Gool, Zhuoning Yuan, Ta-Ying Cheng
cs.AI
Zusammenfassung
Bestehende Methoden zur Videoobjektentfernung sind hervorragend darin, Inhalte "hinter" dem Objekt zu vervollständigen und erscheinungsbezogene Artefakte wie Schatten und Reflexionen zu korrigieren. Wenn das entfernte Objekt jedoch signifikantere Interaktionen aufweist, wie z. B. Kollisionen mit anderen Objekten, versagen aktuelle Modelle bei der Korrektur dieser Interaktionen und erzeugen unplausible Ergebnisse. Wir stellen VOID vor, einen Rahmen zur Videoobjektentfernung, der für physikalisch plausible Vervollständigung in solch komplexen Szenarien entwickelt wurde. Um das Modell zu trainieren, generieren wir einen neuen gepaarten Datensatz von kontrafaktischen Objektentfernungen mit Kubric und HUMOTO, bei denen die Entfernung eines Objekts die Änderung nachfolgender physikalischer Interaktionen erfordert. Während der Inferenz identifiziert ein Vision-Language-Modell die Bereiche der Szene, die vom entfernten Objekt betroffen sind. Diese Bereiche werden dann verwendet, um ein Video-Diffusionsmodell zu steuern, das physikalisch konsistente kontrafaktische Ergebnisse erzeugt. Experimente mit synthetischen und realen Daten zeigen, dass unser Ansatz im Vergleich zu früheren Methoden zur Videoobjektentfernung konsistentere Szenendynamiken nach der Objektentfernung bewahrt. Wir hoffen, dass dieser Rahmen aufzeigt, wie Videoeditier-Modelle durch kausale Reasoningprozesse auf hoher Ebene zu besseren Simulatoren der Welt werden können.
English
Existing video object removal methods excel at inpainting content "behind" the object and correcting appearance-level artifacts such as shadows and reflections. However, when the removed object has more significant interactions, such as collisions with other objects, current models fail to correct them and produce implausible results. We present VOID, a video object removal framework designed to perform physically-plausible inpainting in these complex scenarios. To train the model, we generate a new paired dataset of counterfactual object removals using Kubric and HUMOTO, where removing an object requires altering downstream physical interactions. During inference, a vision-language model identifies regions of the scene affected by the removed object. These regions are then used to guide a video diffusion model that generates physically consistent counterfactual outcomes. Experiments on both synthetic and real data show that our approach better preserves consistent scene dynamics after object removal compared to prior video object removal methods. We hope this framework sheds light on how to make video editing models better simulators of the world through high-level causal reasoning.