ChatPaper.aiChatPaper

BlenderFusion : Édition visuelle ancrée en 3D et composition générative

BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing

June 20, 2025
Auteurs: Jiacheng Chen, Ramin Mehran, Xuhui Jia, Saining Xie, Sanghyun Woo
cs.AI

Résumé

Nous présentons BlenderFusion, un cadre de composition visuelle générative qui synthétise de nouvelles scènes en recomposant les objets, la caméra et l'arrière-plan. Il suit un pipeline de superposition-édition-composition : (i) segmentation et conversion des entrées visuelles en entités 3D modifiables (superposition), (ii) édition de ces entités dans Blender avec un contrôle ancré en 3D (édition), et (iii) fusion en une scène cohérente à l'aide d'un compositeur génératif (composition). Notre compositeur génératif étend un modèle de diffusion pré-entraîné pour traiter à la fois les scènes originales (source) et éditées (cible) en parallèle. Il est affiné sur des images vidéo avec deux stratégies d'entraînement clés : (i) masquage de la source, permettant des modifications flexibles comme le remplacement de l'arrière-plan ; (ii) simulation de tremblement d'objets, facilitant un contrôle dissocié sur les objets et la caméra. BlenderFusion surpasse significativement les méthodes antérieures dans les tâches complexes d'édition de scènes compositionnelles.
English
We present BlenderFusion, a generative visual compositing framework that synthesizes new scenes by recomposing objects, camera, and background. It follows a layering-editing-compositing pipeline: (i) segmenting and converting visual inputs into editable 3D entities (layering), (ii) editing them in Blender with 3D-grounded control (editing), and (iii) fusing them into a coherent scene using a generative compositor (compositing). Our generative compositor extends a pre-trained diffusion model to process both the original (source) and edited (target) scenes in parallel. It is fine-tuned on video frames with two key training strategies: (i) source masking, enabling flexible modifications like background replacement; (ii) simulated object jittering, facilitating disentangled control over objects and camera. BlenderFusion significantly outperforms prior methods in complex compositional scene editing tasks.
PDF481June 30, 2025