BlenderFusion : Édition visuelle ancrée en 3D et composition générative
BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing
June 20, 2025
Auteurs: Jiacheng Chen, Ramin Mehran, Xuhui Jia, Saining Xie, Sanghyun Woo
cs.AI
Résumé
Nous présentons BlenderFusion, un cadre de composition visuelle générative qui synthétise de nouvelles scènes en recomposant les objets, la caméra et l'arrière-plan. Il suit un pipeline de superposition-édition-composition : (i) segmentation et conversion des entrées visuelles en entités 3D modifiables (superposition), (ii) édition de ces entités dans Blender avec un contrôle ancré en 3D (édition), et (iii) fusion en une scène cohérente à l'aide d'un compositeur génératif (composition). Notre compositeur génératif étend un modèle de diffusion pré-entraîné pour traiter à la fois les scènes originales (source) et éditées (cible) en parallèle. Il est affiné sur des images vidéo avec deux stratégies d'entraînement clés : (i) masquage de la source, permettant des modifications flexibles comme le remplacement de l'arrière-plan ; (ii) simulation de tremblement d'objets, facilitant un contrôle dissocié sur les objets et la caméra. BlenderFusion surpasse significativement les méthodes antérieures dans les tâches complexes d'édition de scènes compositionnelles.
English
We present BlenderFusion, a generative visual compositing framework that
synthesizes new scenes by recomposing objects, camera, and background. It
follows a layering-editing-compositing pipeline: (i) segmenting and converting
visual inputs into editable 3D entities (layering), (ii) editing them in
Blender with 3D-grounded control (editing), and (iii) fusing them into a
coherent scene using a generative compositor (compositing). Our generative
compositor extends a pre-trained diffusion model to process both the original
(source) and edited (target) scenes in parallel. It is fine-tuned on video
frames with two key training strategies: (i) source masking, enabling flexible
modifications like background replacement; (ii) simulated object jittering,
facilitating disentangled control over objects and camera. BlenderFusion
significantly outperforms prior methods in complex compositional scene editing
tasks.