BlenderFusion: Modifica Visiva Basata su 3D e Composizione Generativa
BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing
June 20, 2025
Autori: Jiacheng Chen, Ramin Mehran, Xuhui Jia, Saining Xie, Sanghyun Woo
cs.AI
Abstract
Presentiamo BlenderFusion, un framework generativo di composizione visiva che sintetizza nuove scene ricomponendo oggetti, camera e sfondo. Segue una pipeline di stratificazione-modifica-composizione: (i) segmentazione e conversione degli input visivi in entità 3D modificabili (stratificazione), (ii) modifica di queste entità in Blender con controlli ancorati al 3D (modifica), e (iii) fusione in una scena coerente utilizzando un compositore generativo (composizione). Il nostro compositore generativo estende un modello di diffusione pre-addestrato per elaborare in parallelo sia le scene originali (sorgente) che quelle modificate (target). È affinato su fotogrammi video con due strategie di addestramento chiave: (i) mascheramento della sorgente, che consente modifiche flessibili come la sostituzione dello sfondo; (ii) simulazione di tremolio degli oggetti, facilitando un controllo disaccoppiato su oggetti e camera. BlenderFusion supera significativamente i metodi precedenti in compiti complessi di editing compositivo delle scene.
English
We present BlenderFusion, a generative visual compositing framework that
synthesizes new scenes by recomposing objects, camera, and background. It
follows a layering-editing-compositing pipeline: (i) segmenting and converting
visual inputs into editable 3D entities (layering), (ii) editing them in
Blender with 3D-grounded control (editing), and (iii) fusing them into a
coherent scene using a generative compositor (compositing). Our generative
compositor extends a pre-trained diffusion model to process both the original
(source) and edited (target) scenes in parallel. It is fine-tuned on video
frames with two key training strategies: (i) source masking, enabling flexible
modifications like background replacement; (ii) simulated object jittering,
facilitating disentangled control over objects and camera. BlenderFusion
significantly outperforms prior methods in complex compositional scene editing
tasks.