VOID: Video Object en Interactie Verwijdering

Samenvatting

Bestaande methoden voor het verwijderen van objecten uit video's blinken uit in het inpainten van inhoud "achter" het object en het corrigeren van artefacten op verschijningsniveau, zoals schaduwen en reflecties. Wanneer het verwijderde object echter significantere interacties heeft, zoals botsingen met andere objecten, slagen huidige modellen er niet in deze te corrigeren en produceren ze ongeloofwaardige resultaten. Wij presenteren VOID, een raamwerk voor het verwijderen van objecten uit video's dat ontworpen is om fysisch plausibele inpainting uit te voeren in dergelijke complexe scenario's. Om het model te trainen, genereren we een nieuwe gepaarde dataset van contrafeitelijke objectverwijderingen met behulp van Kubric en HUMOTO, waarbij het verwijderen van een object vereist dat downstream fysische interacties worden aangepast. Tijdens inferentie identificeert een vision-language model de delen van de scène die beïnvloed zijn door het verwijderde object. Deze regio's worden vervolgens gebruikt om een videodiffusiemodel aan te sturen dat fysisch consistente contrafeitelijke uitkomsten genereert. Experimenten op zowel synthetische als echte data tonen aan dat onze aanpak de consistente scènedynamiek na objectverwijdering beter behoudt in vergelijking met eerdere methoden. Wij hopen dat dit raamwerk inzicht biedt in hoe videobewerkingsmodellen betere simulators van de wereld kunnen worden door hoogwaardige causaal redeneren.

English

Existing video object removal methods excel at inpainting content "behind" the object and correcting appearance-level artifacts such as shadows and reflections. However, when the removed object has more significant interactions, such as collisions with other objects, current models fail to correct them and produce implausible results. We present VOID, a video object removal framework designed to perform physically-plausible inpainting in these complex scenarios. To train the model, we generate a new paired dataset of counterfactual object removals using Kubric and HUMOTO, where removing an object requires altering downstream physical interactions. During inference, a vision-language model identifies regions of the scene affected by the removed object. These regions are then used to guide a video diffusion model that generates physically consistent counterfactual outcomes. Experiments on both synthetic and real data show that our approach better preserves consistent scene dynamics after object removal compared to prior video object removal methods. We hope this framework sheds light on how to make video editing models better simulators of the world through high-level causal reasoning.

VOID: Video Object en Interactie Verwijdering

VOID: Video Object and Interaction Deletion

Samenvatting

Support