InsertAnywhere: Conectando a Geometria de Cenas 4D e Modelos de Difusão para Inserção Realista de Objetos em Vídeo

Resumo

Os recentes avanços na geração de vídeo baseada em difusão abriram novas possibilidades para a edição controlável de vídeo, no entanto, a inserção realista de objetos em vídeo (VOI) permanece um desafio devido à limitada compreensão de cenas 4D e ao tratamento inadequado de oclusões e efeitos de iluminação. Apresentamos o InsertAnywhere, uma nova estrutura VOI que alcança um posicionamento de objetos geometricamente consistente e uma síntese de vídeo fiel à aparência. Nosso método começa com um módulo de geração de máscara com consciência 4D que reconstrói a geometria da cena e propaga o posicionamento de objetos especificado pelo usuário através dos quadros, mantendo a coerência temporal e a consistência de oclusão. Com base nesta fundação espacial, estendemos um modelo de geração de vídeo baseado em difusão para sintetizar conjuntamente o objeto inserido e suas variações locais circundantes, como iluminação e sombreamento. Para permitir o treinamento supervisionado, introduzimos o ROSE++, um conjunto de dados sintético com consciência de iluminação, construído através da transformação do conjunto de dados de remoção de objetos ROSE em trios de vídeo com objeto removido, vídeo com objeto presente e uma imagem de referência gerada por VLM. Através de extensivos experimentos, demonstramos que nossa estrutura produz inserções de objetos geometricamente plausíveis e visualmente coerentes em diversos cenários do mundo real, superando significativamente os modelos de pesquisa e comerciais existentes.

English

Recent advances in diffusion-based video generation have opened new possibilities for controllable video editing, yet realistic video object insertion (VOI) remains challenging due to limited 4D scene understanding and inadequate handling of occlusion and lighting effects. We present InsertAnywhere, a new VOI framework that achieves geometrically consistent object placement and appearance-faithful video synthesis. Our method begins with a 4D aware mask generation module that reconstructs the scene geometry and propagates user specified object placement across frames while maintaining temporal coherence and occlusion consistency. Building upon this spatial foundation, we extend a diffusion based video generation model to jointly synthesize the inserted object and its surrounding local variations such as illumination and shading. To enable supervised training, we introduce ROSE++, an illumination aware synthetic dataset constructed by transforming the ROSE object removal dataset into triplets of object removed video, object present video, and a VLM generated reference image. Through extensive experiments, we demonstrate that our framework produces geometrically plausible and visually coherent object insertions across diverse real world scenarios, significantly outperforming existing research and commercial models.

InsertAnywhere: Conectando a Geometria de Cenas 4D e Modelos de Difusão para Inserção Realista de Objetos em Vídeo

InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

Resumo

Support