InsertAnywhere: Collega la geometria 4D delle scene e i modelli di diffusione per un'inserzione realistica di oggetti nei video

Abstract

I recenti progressi nella generazione video basata su diffusione hanno aperto nuove possibilità per l'editing video controllabile, ma l'inserimento realistico di oggetti video (VOI) rimane una sfida a causa della limitata comprensione 4D della scena e della gestione inadeguata delle occlusioni e degli effetti di illuminazione. Presentiamo InsertAnywhere, un nuovo framework VOI che raggiunge un posizionamento di oggetti geometricamente coerente e una sintesi video fedele all'aspetto. Il nostro metodo inizia con un modulo di generazione di maschere consapevole in 4D che ricostruisce la geometria della scena e propaga il posizionamento dell'oggetto specificato dall'utente attraverso i fotogrammi, mantenendo la coerenza temporale e la consistenza delle occlusioni. Basandosi su questo fondamento spaziale, estendiamo un modello di generazione video basato su diffusione per sintetizzare congiuntamente l'oggetto inserito e le sue variazioni locali circostanti, come l'illuminazione e l'ombreggiatura. Per abilitare l'addestramento supervisionato, introduciamo ROSE++, un dataset sintetico consapevole dell'illuminazione, costruito trasformando il dataset di rimozione oggetti ROSE in triplette di video con oggetto rimosso, video con oggetto presente e un'immagine di riferimento generata da un VLM. Attraverso esperimenti estesi, dimostriamo che il nostro framework produce inserimenti di oggetti geometricamente plausibili e visivamente coerenti in diversi scenari del mondo reale, superando significativamente i modelli di ricerca e commerciali esistenti.

English

Recent advances in diffusion-based video generation have opened new possibilities for controllable video editing, yet realistic video object insertion (VOI) remains challenging due to limited 4D scene understanding and inadequate handling of occlusion and lighting effects. We present InsertAnywhere, a new VOI framework that achieves geometrically consistent object placement and appearance-faithful video synthesis. Our method begins with a 4D aware mask generation module that reconstructs the scene geometry and propagates user specified object placement across frames while maintaining temporal coherence and occlusion consistency. Building upon this spatial foundation, we extend a diffusion based video generation model to jointly synthesize the inserted object and its surrounding local variations such as illumination and shading. To enable supervised training, we introduce ROSE++, an illumination aware synthetic dataset constructed by transforming the ROSE object removal dataset into triplets of object removed video, object present video, and a VLM generated reference image. Through extensive experiments, we demonstrate that our framework produces geometrically plausible and visually coherent object insertions across diverse real world scenarios, significantly outperforming existing research and commercial models.

InsertAnywhere: Collega la geometria 4D delle scene e i modelli di diffusione per un'inserzione realistica di oggetti nei video

InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

Abstract

Support