VOID: Удаление видеообъектов и взаимодействий

Аннотация

Существующие методы удаления объектов из видео преуспевают в восстановлении контента «позади» объекта и коррекции артефактов на уровне внешнего вида, таких как тени и отражения. Однако когда удаляемый объект имеет более значительные взаимодействия, например, столкновения с другими объектами, современные модели не способны их корректировать и выдают неправдоподобные результаты. Мы представляем VOID — фреймворк для удаления объектов из видео, предназначенный для физически правдоподобного восстановления в таких сложных сценариях. Для обучения модели мы создали новый парный набор данных контрафактических удалений объектов с использованием Kubric и HUMOTO, где удаление объекта требует изменения последующих физических взаимодействий. На этапе вывода модель «визуальный язык» идентифицирует области сцены, затронутые удаленным объектом. Эти области затем используются для управления видео-диффузионной моделью, которая генерирует физически согласованные контрафактические результаты. Эксперименты как на синтетических, так и на реальных данных показывают, что наш подход лучше сохраняет согласованную динамику сцены после удаления объекта по сравнению с предыдущими методами. Мы надеемся, что этот фреймворк прольет свет на то, как сделать модели редактирования видео лучшими симуляторами мира за счет причинно-следственного рассуждения высокого уровня.

English

Existing video object removal methods excel at inpainting content "behind" the object and correcting appearance-level artifacts such as shadows and reflections. However, when the removed object has more significant interactions, such as collisions with other objects, current models fail to correct them and produce implausible results. We present VOID, a video object removal framework designed to perform physically-plausible inpainting in these complex scenarios. To train the model, we generate a new paired dataset of counterfactual object removals using Kubric and HUMOTO, where removing an object requires altering downstream physical interactions. During inference, a vision-language model identifies regions of the scene affected by the removed object. These regions are then used to guide a video diffusion model that generates physically consistent counterfactual outcomes. Experiments on both synthetic and real data show that our approach better preserves consistent scene dynamics after object removal compared to prior video object removal methods. We hope this framework sheds light on how to make video editing models better simulators of the world through high-level causal reasoning.

VOID: Удаление видеообъектов и взаимодействий

VOID: Video Object and Interaction Deletion

Аннотация

Support