ChatPaper.aiChatPaper

InsertAnywhere: Объединение 4D-геометрии сцены и диффузионных моделей для реалистичного вставления объектов в видео

InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

December 19, 2025
Авторы: Hoiyeong Jin, Hyojin Jang, Jeongho Kim, Junha Hyung, Kinam Kim, Dongjin Kim, Huijin Choi, Hyeonji Kim, Jaegul Choo
cs.AI

Аннотация

Последние достижения в области диффузионной генерации видео открыли новые возможности для управляемого видеомонтажа, однако реалистичная вставка видеообъектов (VOI) остается сложной задачей из-за ограниченного понимания 4D-сцены и недостаточной обработки эффектов окклюзии и освещения. Мы представляем InsertAnywhere — новую платформу для VOI, которая обеспечивает геометрически согласованное размещение объектов и достоверный с точки зрения внешнего вида синтез видео. Наш метод начинается с модуля генерации 4D масок, который восстанавливает геометрию сцены и распространяет заданное пользователем размещение объекта между кадрами, сохраняя временную согласованность и окклюзионную целостность. На основе этого пространственного фундамента мы расширяем диффузионную модель генерации видео для совместного синтеза вставляемого объекта и локальных изменений в его окружении, таких как освещение и тени. Для обеспечения обучения с учителем мы представляем ROSE++ — учитывающий освещение синтетический датасет, созданный путем преобразования датасета удаления объектов ROSE в тройки: видео с удаленным объектом, видео с присутствующим объектом и эталонное изображение, сгенерированное VLM. В ходе обширных экспериментов мы демонстрируем, что наша платформа создает геометрически правдоподобные и визуально согласованные вставки объектов в различных реальных сценариях, значительно превосходя существующие исследовательские и коммерческие модели.
English
Recent advances in diffusion-based video generation have opened new possibilities for controllable video editing, yet realistic video object insertion (VOI) remains challenging due to limited 4D scene understanding and inadequate handling of occlusion and lighting effects. We present InsertAnywhere, a new VOI framework that achieves geometrically consistent object placement and appearance-faithful video synthesis. Our method begins with a 4D aware mask generation module that reconstructs the scene geometry and propagates user specified object placement across frames while maintaining temporal coherence and occlusion consistency. Building upon this spatial foundation, we extend a diffusion based video generation model to jointly synthesize the inserted object and its surrounding local variations such as illumination and shading. To enable supervised training, we introduce ROSE++, an illumination aware synthetic dataset constructed by transforming the ROSE object removal dataset into triplets of object removed video, object present video, and a VLM generated reference image. Through extensive experiments, we demonstrate that our framework produces geometrically plausible and visually coherent object insertions across diverse real world scenarios, significantly outperforming existing research and commercial models.
PDF701December 30, 2025