ChatPaper.aiChatPaper

BlenderFusion: Visuelle Bearbeitung und generative Komposition mit 3D-Grundlage

BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing

June 20, 2025
Autoren: Jiacheng Chen, Ramin Mehran, Xuhui Jia, Saining Xie, Sanghyun Woo
cs.AI

Zusammenfassung

Wir präsentieren BlenderFusion, ein generatives visuelles Compositing-Framework, das neue Szenen durch die Neukomposition von Objekten, Kamera und Hintergrund synthetisiert. Es folgt einem Layering-Editing-Compositing-Pipeline: (i) Segmentierung und Konvertierung visueller Eingaben in editierbare 3D-Entitäten (Layering), (ii) Bearbeitung dieser in Blender mit 3D-gestützter Steuerung (Editing) und (iii) Verschmelzung zu einer kohärenten Szene mithilfe eines generativen Compositors (Compositing). Unser generativer Compositor erweitert ein vortrainiertes Diffusionsmodell, um sowohl die ursprüngliche (Quell-) als auch die bearbeitete (Ziel-) Szene parallel zu verarbeiten. Es wird auf Videobildern mit zwei zentralen Trainingsstrategien feinabgestimmt: (i) Quellmaskierung, die flexible Modifikationen wie den Hintergundaustausch ermöglicht; (ii) simuliertes Objekt-Jittering, das eine entkoppelte Steuerung über Objekte und Kamera erleichtert. BlenderFusion übertrifft bisherige Methoden deutlich bei komplexen kompositionellen Szenenbearbeitungsaufgaben.
English
We present BlenderFusion, a generative visual compositing framework that synthesizes new scenes by recomposing objects, camera, and background. It follows a layering-editing-compositing pipeline: (i) segmenting and converting visual inputs into editable 3D entities (layering), (ii) editing them in Blender with 3D-grounded control (editing), and (iii) fusing them into a coherent scene using a generative compositor (compositing). Our generative compositor extends a pre-trained diffusion model to process both the original (source) and edited (target) scenes in parallel. It is fine-tuned on video frames with two key training strategies: (i) source masking, enabling flexible modifications like background replacement; (ii) simulated object jittering, facilitating disentangled control over objects and camera. BlenderFusion significantly outperforms prior methods in complex compositional scene editing tasks.
PDF481June 30, 2025