BlenderFusion: Edición Visual Basada en 3D y Composición Generativa
BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing
June 20, 2025
Autores: Jiacheng Chen, Ramin Mehran, Xuhui Jia, Saining Xie, Sanghyun Woo
cs.AI
Resumen
Presentamos BlenderFusion, un marco de composición visual generativa que sintetiza nuevas escenas mediante la recomposición de objetos, cámara y fondo. Sigue una canalización de estratificación-edición-composición: (i) segmentación y conversión de entradas visuales en entidades 3D editables (estratificación), (ii) edición de estas en Blender con control basado en 3D (edición), y (iii) fusión en una escena coherente utilizando un compositor generativo (composición). Nuestro compositor generativo extiende un modelo de difusión preentrenado para procesar tanto las escenas originales (fuente) como las editadas (objetivo) en paralelo. Se ajusta finamente en fotogramas de video con dos estrategias clave de entrenamiento: (i) enmascaramiento de la fuente, permitiendo modificaciones flexibles como el reemplazo de fondos; (ii) vibración simulada de objetos, facilitando un control desacoplado sobre objetos y cámara. BlenderFusion supera significativamente a métodos anteriores en tareas complejas de edición de escenas compositivas.
English
We present BlenderFusion, a generative visual compositing framework that
synthesizes new scenes by recomposing objects, camera, and background. It
follows a layering-editing-compositing pipeline: (i) segmenting and converting
visual inputs into editable 3D entities (layering), (ii) editing them in
Blender with 3D-grounded control (editing), and (iii) fusing them into a
coherent scene using a generative compositor (compositing). Our generative
compositor extends a pre-trained diffusion model to process both the original
(source) and edited (target) scenes in parallel. It is fine-tuned on video
frames with two key training strategies: (i) source masking, enabling flexible
modifications like background replacement; (ii) simulated object jittering,
facilitating disentangled control over objects and camera. BlenderFusion
significantly outperforms prior methods in complex compositional scene editing
tasks.