BlenderFusion: Визуальное редактирование и генеративное композитирование с использованием 3D-основы
BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing
June 20, 2025
Авторы: Jiacheng Chen, Ramin Mehran, Xuhui Jia, Saining Xie, Sanghyun Woo
cs.AI
Аннотация
Мы представляем BlenderFusion, генеративный фреймворк для визуального композитинга, который синтезирует новые сцены путем перекомпоновки объектов, камеры и фона. Он следует конвейеру слоев-редактирования-композитинга: (i) сегментация и преобразование визуальных входных данных в редактируемые 3D-сущности (слои), (ii) их редактирование в Blender с использованием 3D-ориентированного управления (редактирование) и (iii) их объединение в согласованную сцену с помощью генеративного композитора (композитинг). Наш генеративный композитор расширяет предварительно обученную диффузионную модель для параллельной обработки как исходной (source), так и отредактированной (target) сцен. Он дорабатывается на видеокадрах с использованием двух ключевых стратегий обучения: (i) маскирование исходных данных, позволяющее гибкие модификации, такие как замена фона; (ii) симулированное дрожание объектов, способствующее раздельному управлению объектами и камерой. BlenderFusion значительно превосходит предыдущие методы в задачах сложного композиционного редактирования сцен.
English
We present BlenderFusion, a generative visual compositing framework that
synthesizes new scenes by recomposing objects, camera, and background. It
follows a layering-editing-compositing pipeline: (i) segmenting and converting
visual inputs into editable 3D entities (layering), (ii) editing them in
Blender with 3D-grounded control (editing), and (iii) fusing them into a
coherent scene using a generative compositor (compositing). Our generative
compositor extends a pre-trained diffusion model to process both the original
(source) and edited (target) scenes in parallel. It is fine-tuned on video
frames with two key training strategies: (i) source masking, enabling flexible
modifications like background replacement; (ii) simulated object jittering,
facilitating disentangled control over objects and camera. BlenderFusion
significantly outperforms prior methods in complex compositional scene editing
tasks.