VOID : Suppression d'Objets et d'Interactions Vidéo

Résumé

Les méthodes existantes de suppression d'objets vidéo excellent à restaurer le contenu "derrière" l'objet et à corriger les artefacts au niveau de l'apparence, tels que les ombres et les réflexions. Cependant, lorsque l'objet supprimé a des interactions plus significatives, comme des collisions avec d'autres objets, les modèles actuels échouent à les corriger et produisent des résultats peu plausibles. Nous présentons VOID, un cadre de suppression d'objets vidéo conçu pour effectuer une restauration physiquement plausible dans ces scénarios complexes. Pour entraîner le modèle, nous générons un nouveau jeu de données apparié de suppressions contrefactuelles d'objets en utilisant Kubric et HUMOTO, où supprimer un objet nécessite de modifier les interactions physiques qui en découlent. Lors de l'inférence, un modèle vision-langage identifie les régions de la scène affectées par l'objet supprimé. Ces régions sont ensuite utilisées pour guider un modèle de diffusion vidéo qui génère des résultats contrefactuels physiquement cohérents. Les expériences sur des données synthétiques et réelles montrent que notre approche préserve mieux la dynamique cohérente de la scène après suppression d'un objet par rapport aux méthodes précédentes de suppression d'objets vidéo. Nous espérons que ce cadre éclaire la manière de rendre les modèles d'édition vidéo de meilleurs simulateurs du monde grâce à un raisonnement causal de haut niveau.

English

Existing video object removal methods excel at inpainting content "behind" the object and correcting appearance-level artifacts such as shadows and reflections. However, when the removed object has more significant interactions, such as collisions with other objects, current models fail to correct them and produce implausible results. We present VOID, a video object removal framework designed to perform physically-plausible inpainting in these complex scenarios. To train the model, we generate a new paired dataset of counterfactual object removals using Kubric and HUMOTO, where removing an object requires altering downstream physical interactions. During inference, a vision-language model identifies regions of the scene affected by the removed object. These regions are then used to guide a video diffusion model that generates physically consistent counterfactual outcomes. Experiments on both synthetic and real data show that our approach better preserves consistent scene dynamics after object removal compared to prior video object removal methods. We hope this framework sheds light on how to make video editing models better simulators of the world through high-level causal reasoning.

VOID : Suppression d'Objets et d'Interactions Vidéo

VOID: Video Object and Interaction Deletion

Résumé

Support