BlenderFusion: Visuele bewerking en generatieve compositie met 3D-verankering
BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing
June 20, 2025
Auteurs: Jiacheng Chen, Ramin Mehran, Xuhui Jia, Saining Xie, Sanghyun Woo
cs.AI
Samenvatting
We presenteren BlenderFusion, een generatief visueel compositing-framework dat nieuwe scènes synthetiseert door objecten, camera en achtergrond opnieuw te componeren. Het volgt een laagbewerkings-compositing-pijplijn: (i) segmenteren en omzetten van visuele invoer naar bewerkbare 3D-entiteiten (lagen), (ii) bewerken ervan in Blender met 3D-gebaseerde controle (bewerken), en (iii) samenvoegen tot een coherente scène met behulp van een generatieve compositor (compositing). Onze generatieve compositor breidt een vooraf getraind diffusiemodel uit om zowel de originele (bron) als bewerkte (doel) scènes parallel te verwerken. Het is afgestemd op videoframes met twee belangrijke trainingsstrategieën: (i) bronmaskering, waardoor flexibele aanpassingen zoals achtergrondvervanging mogelijk zijn; (ii) gesimuleerd objecttrillen, wat ontvlechting van controle over objecten en camera vergemakkelijkt. BlenderFusion overtreft eerdere methoden aanzienlijk in complexe compositorische scènebewerkingstaken.
English
We present BlenderFusion, a generative visual compositing framework that
synthesizes new scenes by recomposing objects, camera, and background. It
follows a layering-editing-compositing pipeline: (i) segmenting and converting
visual inputs into editable 3D entities (layering), (ii) editing them in
Blender with 3D-grounded control (editing), and (iii) fusing them into a
coherent scene using a generative compositor (compositing). Our generative
compositor extends a pre-trained diffusion model to process both the original
(source) and edited (target) scenes in parallel. It is fine-tuned on video
frames with two key training strategies: (i) source masking, enabling flexible
modifications like background replacement; (ii) simulated object jittering,
facilitating disentangled control over objects and camera. BlenderFusion
significantly outperforms prior methods in complex compositional scene editing
tasks.