BlobCtrl: Een Uniform en Flexibel Framework voor Elementniveau Beeldgeneratie en -bewerking
BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing
March 17, 2025
Auteurs: Yaowei Li, Lingen Li, Zhaoyang Zhang, Xiaoyu Li, Guangzhi Wang, Hongxiang Li, Xiaodong Cun, Ying Shan, Yuexian Zou
cs.AI
Samenvatting
Element-level visuele manipulatie is essentieel in digitale contentcreatie,
maar huidige op diffusie gebaseerde methoden missen de precisie en flexibiliteit
van traditionele tools. In dit werk introduceren we BlobCtrl, een framework dat
element-level generatie en bewerking verenigt met behulp van een probabilistische
blob-gebaseerde representatie. Door blobs te gebruiken als visuele primitieven,
ontkoppelt en representeert onze aanpak effectief ruimtelijke locatie, semantische
inhoud en identiteitsinformatie, wat precieze element-level manipulatie mogelijk
maakt. Onze belangrijkste bijdragen omvatten: 1) een dual-branch diffusiearchitectuur
met hiërarchische featurefusie voor naadloze integratie van voorgrond en achtergrond;
2) een zelfgesuperviseerd trainingsparadigma met op maat gemakte data-augmentatie en
scorefuncties; en 3) beheersbare dropout-strategieën om trouw en diversiteit in
evenwicht te brengen. Om verder onderzoek te ondersteunen, introduceren we BlobData
voor grootschalige training en BlobBench voor systematische evaluatie. Experimenten
tonen aan dat BlobCtrl uitblinkt in diverse element-level manipulatietaken terwijl
het rekenkundige efficiëntie behoudt, en biedt zo een praktische oplossing voor
precieze en flexibele visuele contentcreatie. Projectpagina:
https://liyaowei-stu.github.io/project/BlobCtrl/
English
Element-level visual manipulation is essential in digital content creation,
but current diffusion-based methods lack the precision and flexibility of
traditional tools. In this work, we introduce BlobCtrl, a framework that
unifies element-level generation and editing using a probabilistic blob-based
representation. By employing blobs as visual primitives, our approach
effectively decouples and represents spatial location, semantic content, and
identity information, enabling precise element-level manipulation. Our key
contributions include: 1) a dual-branch diffusion architecture with
hierarchical feature fusion for seamless foreground-background integration; 2)
a self-supervised training paradigm with tailored data augmentation and score
functions; and 3) controllable dropout strategies to balance fidelity and
diversity. To support further research, we introduce BlobData for large-scale
training and BlobBench for systematic evaluation. Experiments show that
BlobCtrl excels in various element-level manipulation tasks while maintaining
computational efficiency, offering a practical solution for precise and
flexible visual content creation. Project page:
https://liyaowei-stu.github.io/project/BlobCtrl/Summary
AI-Generated Summary