InsertAnywhere: Een brug tussen 4D-scènegeometrie en diffusiemodellen voor realistische video-objectinvoeging
InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion
December 19, 2025
Auteurs: Hoiyeong Jin, Hyojin Jang, Jeongho Kim, Junha Hyung, Kinam Kim, Dongjin Kim, Huijin Choi, Hyeonji Kim, Jaegul Choo
cs.AI
Samenvatting
Recente vooruitgang in diffusiegebaseerde videogeneratie heeft nieuwe mogelijkheden geopend voor controleerbare videobewerking, maar realistische video-objectinvoeging (VOI) blijft een uitdaging vanwege beperkt 4D-scènebegrip en onvoldoende afhandeling van occlusie- en belichtingseffecten. Wij presenteren InsertAnywhere, een nieuw VOI-raamwerk dat geometrisch consistente objectplaatsing en uiterlijk-getrouwe videosynthese bereikt. Onze methode begint met een 4D-bewuste maskergeneratiemodule die de scènegeometrie reconstrueert en door de gebruiker gespecificeerde objectplaatsing over frames propageert, waarbij temporele coherentie en occlusieconsistentie worden behouden. Voortbouwend op deze ruimtelijke basis breiden we een diffusiegebaseerd videogeneratiemodel uit om gezamenlijk het ingevoegde object en de lokale variaties in de omgeving ervan, zoals belichting en schaduw, te synthetiseren. Om gesuperviseerde training mogelijk te maken, introduceren we ROSE++, een illuminatiebewuste synthetische dataset die is geconstrueerd door de ROSE-objectverwijdingsdataset om te zetten in tripletten van objectverwijderde video, object-aanwezige video en een VLM-gegenereerde referentieafbeelding. Door middel van uitgebreide experimenten tonen we aan dat ons framework geometrisch plausibele en visueel coherente objectinvoegingen produceert in diverse real-world scenario's, waarbij het significant beter presteert dan bestaande onderzoeks- en commerciële modellen.
English
Recent advances in diffusion-based video generation have opened new possibilities for controllable video editing, yet realistic video object insertion (VOI) remains challenging due to limited 4D scene understanding and inadequate handling of occlusion and lighting effects. We present InsertAnywhere, a new VOI framework that achieves geometrically consistent object placement and appearance-faithful video synthesis. Our method begins with a 4D aware mask generation module that reconstructs the scene geometry and propagates user specified object placement across frames while maintaining temporal coherence and occlusion consistency. Building upon this spatial foundation, we extend a diffusion based video generation model to jointly synthesize the inserted object and its surrounding local variations such as illumination and shading. To enable supervised training, we introduce ROSE++, an illumination aware synthetic dataset constructed by transforming the ROSE object removal dataset into triplets of object removed video, object present video, and a VLM generated reference image. Through extensive experiments, we demonstrate that our framework produces geometrically plausible and visually coherent object insertions across diverse real world scenarios, significantly outperforming existing research and commercial models.