ChatPaper.aiChatPaper

InsertAnywhere: Brückenschlag zwischen 4D-Szenengeometrie und Diffusionsmodellen für realistische Videoobjekteinfügung

InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

December 19, 2025
papers.authors: Hoiyeong Jin, Hyojin Jang, Jeongho Kim, Junha Hyung, Kinam Kim, Dongjin Kim, Huijin Choi, Hyeonji Kim, Jaegul Choo
cs.AI

papers.abstract

Jüngste Fortschritte bei der diffusionsbasierten Videogenerierung haben neue Möglichkeiten für steuerbare Videobearbeitung eröffnet, doch realistische Videoobjekteinfügung (VOI) bleibt aufgrund des begrenzten 4D-Szenenverständnisses und der unzureichenden Handhabung von Okklusionen und Beleuchtungseffekten eine Herausforderung. Wir stellen InsertAnywhere vor, ein neues VOI-Framework, das geometrisch konsistente Objektplatzierung und erscheinungstreue Videosynthese erreicht. Unsere Methode beginnt mit einem 4D-bewussten Maskengenerierungsmodul, das die Szenengeometrie rekonstruiert und die benutzerspezifische Objektplatzierung über Frames hinweg unter Wahrung der zeitlichen Kohärenz und Okklusionskonsistenz propagiert. Auf dieser räumlichen Grundlage aufbauend, erweitern wir ein diffusionsbasiertes Videogenerierungsmodell, um gemeinsam das eingefügte Objekt und seine lokalen Umgebungsvariationen wie Beleuchtung und Schattierung zu synthetisieren. Um supervidiertes Training zu ermöglichen, führen wir ROSE++ ein, einen beleuchtungsbewussten synthetischen Datensatz, der durch die Transformation des ROSE-Objektentfernungsdatensatzes in Tripel aus objektfreiem Video, objektenthaltendem Video und einem VLM-generierten Referenzbild erstellt wird. Durch umfangreiche Experimente zeigen wir, dass unser Framework geometrisch plausible und visuell kohärente Objekteinfügungen in verschiedenen realen Szenarien erzeugt und dabei bestehende Forschungs- und kommerzielle Modelle signifikant übertrifft.
English
Recent advances in diffusion-based video generation have opened new possibilities for controllable video editing, yet realistic video object insertion (VOI) remains challenging due to limited 4D scene understanding and inadequate handling of occlusion and lighting effects. We present InsertAnywhere, a new VOI framework that achieves geometrically consistent object placement and appearance-faithful video synthesis. Our method begins with a 4D aware mask generation module that reconstructs the scene geometry and propagates user specified object placement across frames while maintaining temporal coherence and occlusion consistency. Building upon this spatial foundation, we extend a diffusion based video generation model to jointly synthesize the inserted object and its surrounding local variations such as illumination and shading. To enable supervised training, we introduce ROSE++, an illumination aware synthetic dataset constructed by transforming the ROSE object removal dataset into triplets of object removed video, object present video, and a VLM generated reference image. Through extensive experiments, we demonstrate that our framework produces geometrically plausible and visually coherent object insertions across diverse real world scenarios, significantly outperforming existing research and commercial models.
PDF701December 30, 2025