ChatPaper.aiChatPaper

InsertAnywhere : Relier la géométrie 4D des scènes et les modèles de diffusion pour une insertion réaliste d'objets vidéo

InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

December 19, 2025
papers.authors: Hoiyeong Jin, Hyojin Jang, Jeongho Kim, Junha Hyung, Kinam Kim, Dongjin Kim, Huijin Choi, Hyeonji Kim, Jaegul Choo
cs.AI

papers.abstract

Les récentes avancées en génération vidéo par diffusion ont ouvert de nouvelles possibilités pour l'édition vidéo contrôlable, mais l'insertion réaliste d'objets vidéo (VOI) reste difficile en raison d'une compréhension limitée des scènes 4D et d'une prise en charge inadéquate des effets d'occlusion et d'éclairage. Nous présentons InsertAnywhere, un nouveau cadre VOI qui réalise un placement d'objets géométriquement cohérent et une synthèse vidéo fidèle à l'apparence. Notre méthode commence par un module de génération de masques conscient en 4D qui reconstruit la géométrie de la scène et propage le placement d'objets spécifié par l'utilisateur à travers les images tout en maintenant la cohérence temporelle et la cohérence des occlusions. Sur cette base spatiale, nous étendons un modèle de génération vidéo par diffusion pour synthétiser conjointement l'objet inséré et ses variations locales environnantes, telles que l'illumination et l'ombrage. Pour permettre un apprentissage supervisé, nous introduisons ROSE++, un ensemble de données synthétiques conscient de l'illumination, construit en transformant l'ensemble de données de suppression d'objets ROSE en triplets de vidéo sans objet, de vidéo avec objet et d'une image de référence générée par un modèle de langage visuel (VLM). Par des expériences approfondies, nous démontrons que notre cadre produit des insertions d'objets géométriquement plausibles et visuellement cohérentes dans divers scénarios du monde réel, surpassant significativement les modèles de recherche et commerciaux existants.
English
Recent advances in diffusion-based video generation have opened new possibilities for controllable video editing, yet realistic video object insertion (VOI) remains challenging due to limited 4D scene understanding and inadequate handling of occlusion and lighting effects. We present InsertAnywhere, a new VOI framework that achieves geometrically consistent object placement and appearance-faithful video synthesis. Our method begins with a 4D aware mask generation module that reconstructs the scene geometry and propagates user specified object placement across frames while maintaining temporal coherence and occlusion consistency. Building upon this spatial foundation, we extend a diffusion based video generation model to jointly synthesize the inserted object and its surrounding local variations such as illumination and shading. To enable supervised training, we introduce ROSE++, an illumination aware synthetic dataset constructed by transforming the ROSE object removal dataset into triplets of object removed video, object present video, and a VLM generated reference image. Through extensive experiments, we demonstrate that our framework produces geometrically plausible and visually coherent object insertions across diverse real world scenarios, significantly outperforming existing research and commercial models.
PDF701December 30, 2025