BlenderFusion: Edição Visual Baseada em 3D e Composição Generativa
BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing
June 20, 2025
Autores: Jiacheng Chen, Ramin Mehran, Xuhui Jia, Saining Xie, Sanghyun Woo
cs.AI
Resumo
Apresentamos o BlenderFusion, um framework de composição visual generativa que sintetiza novas cenas recompondo objetos, câmera e fundo. Ele segue um pipeline de camadas-edição-composição: (i) segmentação e conversão de entradas visuais em entidades 3D editáveis (camadas), (ii) edição dessas entidades no Blender com controle baseado em 3D (edição), e (iii) fusão em uma cena coerente usando um compositor generativo (composição). Nosso compositor generativo estende um modelo de difusão pré-treinado para processar tanto a cena original (fonte) quanto a editada (alvo) em paralelo. Ele é ajustado em frames de vídeo com duas estratégias de treinamento principais: (i) mascaramento da fonte, permitindo modificações flexíveis como substituição de fundo; (ii) simulação de tremulação de objetos, facilitando controle desacoplado sobre objetos e câmera. O BlenderFusion supera significativamente métodos anteriores em tarefas complexas de edição de cenas composicionais.
English
We present BlenderFusion, a generative visual compositing framework that
synthesizes new scenes by recomposing objects, camera, and background. It
follows a layering-editing-compositing pipeline: (i) segmenting and converting
visual inputs into editable 3D entities (layering), (ii) editing them in
Blender with 3D-grounded control (editing), and (iii) fusing them into a
coherent scene using a generative compositor (compositing). Our generative
compositor extends a pre-trained diffusion model to process both the original
(source) and edited (target) scenes in parallel. It is fine-tuned on video
frames with two key training strategies: (i) source masking, enabling flexible
modifications like background replacement; (ii) simulated object jittering,
facilitating disentangled control over objects and camera. BlenderFusion
significantly outperforms prior methods in complex compositional scene editing
tasks.