ChatPaper.aiChatPaper

BlenderFusion: 3Dに基づいた視覚的編集と生成的コンポジット

BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing

June 20, 2025
著者: Jiacheng Chen, Ramin Mehran, Xuhui Jia, Saining Xie, Sanghyun Woo
cs.AI

要旨

本論文では、BlenderFusionを提案する。これは、オブジェクト、カメラ、背景を再構成することで新しいシーンを合成する生成型ビジュアルコンポジットフレームワークである。本手法は、レイヤリング・編集・コンポジットのパイプラインに従う:(i) 視覚的入力をセグメント化し、編集可能な3Dエンティティに変換する(レイヤリング)、(ii) Blender内で3Dに基づいた制御を用いて編集する(編集)、(iii) 生成型コンポジタを用いてそれらを一貫したシーンに融合する(コンポジット)。本手法の生成型コンポジタは、事前学習済みの拡散モデルを拡張し、元の(ソース)シーンと編集された(ターゲット)シーンを並列に処理する。ビデオフレームに対して2つの主要な学習戦略を用いてファインチューニングを行う:(i) ソースマスキングにより、背景置換などの柔軟な変更を可能にする、(ii) シミュレートされたオブジェクトジッタリングにより、オブジェクトとカメラの制御を分離する。BlenderFusionは、複雑な構成シーン編集タスクにおいて、従来手法を大幅に上回る性能を示す。
English
We present BlenderFusion, a generative visual compositing framework that synthesizes new scenes by recomposing objects, camera, and background. It follows a layering-editing-compositing pipeline: (i) segmenting and converting visual inputs into editable 3D entities (layering), (ii) editing them in Blender with 3D-grounded control (editing), and (iii) fusing them into a coherent scene using a generative compositor (compositing). Our generative compositor extends a pre-trained diffusion model to process both the original (source) and edited (target) scenes in parallel. It is fine-tuned on video frames with two key training strategies: (i) source masking, enabling flexible modifications like background replacement; (ii) simulated object jittering, facilitating disentangled control over objects and camera. BlenderFusion significantly outperforms prior methods in complex compositional scene editing tasks.
PDF481June 30, 2025