ChatPaper.aiChatPaper

InsertAnywhere: Conectando la geometría de escenas 4D y los modelos de difusión para la inserción realista de objetos en vídeo

InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

December 19, 2025
Autores: Hoiyeong Jin, Hyojin Jang, Jeongho Kim, Junha Hyung, Kinam Kim, Dongjin Kim, Huijin Choi, Hyeonji Kim, Jaegul Choo
cs.AI

Resumen

Los recientes avances en la generación de vídeo basada en difusión han abierto nuevas posibilidades para la edición controlada de vídeos, sin embargo, la inserción realista de objetos en vídeo (VOI) sigue siendo un desafío debido a la comprensión limitada de escenas 4D y al manejo inadecuado de las oclusiones y los efectos de iluminación. Presentamos InsertAnywhere, un nuevo marco de trabajo para VOI que logra una colocación de objetos geométricamente consistente y una síntesis de vídeo fiel a la apariencia. Nuestro método comienza con un módulo de generación de máscaras con conciencia 4D que reconstruye la geometría de la escena y propaga la colocación de objetos especificada por el usuario a lo largo de los fotogramas, manteniendo la coherencia temporal y la consistencia de las oclusiones. Sobre esta base espacial, extendemos un modelo de generación de vídeo basado en difusión para sintetizar conjuntamente el objeto insertado y las variaciones locales de su entorno, como la iluminación y las sombras. Para permitir el entrenamiento supervisado, presentamos ROSE++, un conjunto de datos sintético con conciencia de la iluminación, construido mediante la transformación del conjunto de datos de eliminación de objetos ROSE en tríos de vídeo con objeto eliminado, vídeo con objeto presente y una imagen de referencia generada por un modelo de lenguaje visual (VLM). A través de experimentos exhaustivos, demostramos que nuestro marco de trabajo produce inserciones de objetos geométricamente plausibles y visualmente coherentes en diversos escenarios del mundo real, superando significativamente a los modelos de investigación y comerciales existentes.
English
Recent advances in diffusion-based video generation have opened new possibilities for controllable video editing, yet realistic video object insertion (VOI) remains challenging due to limited 4D scene understanding and inadequate handling of occlusion and lighting effects. We present InsertAnywhere, a new VOI framework that achieves geometrically consistent object placement and appearance-faithful video synthesis. Our method begins with a 4D aware mask generation module that reconstructs the scene geometry and propagates user specified object placement across frames while maintaining temporal coherence and occlusion consistency. Building upon this spatial foundation, we extend a diffusion based video generation model to jointly synthesize the inserted object and its surrounding local variations such as illumination and shading. To enable supervised training, we introduce ROSE++, an illumination aware synthetic dataset constructed by transforming the ROSE object removal dataset into triplets of object removed video, object present video, and a VLM generated reference image. Through extensive experiments, we demonstrate that our framework produces geometrically plausible and visually coherent object insertions across diverse real world scenarios, significantly outperforming existing research and commercial models.
PDF701December 30, 2025