ChatPaper.aiChatPaper

BlobCtrl: Een Uniform en Flexibel Framework voor Elementniveau Beeldgeneratie en -bewerking

BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing

March 17, 2025
Auteurs: Yaowei Li, Lingen Li, Zhaoyang Zhang, Xiaoyu Li, Guangzhi Wang, Hongxiang Li, Xiaodong Cun, Ying Shan, Yuexian Zou
cs.AI

Samenvatting

Element-level visuele manipulatie is essentieel in digitale contentcreatie, maar huidige op diffusie gebaseerde methoden missen de precisie en flexibiliteit van traditionele tools. In dit werk introduceren we BlobCtrl, een framework dat element-level generatie en bewerking verenigt met behulp van een probabilistische blob-gebaseerde representatie. Door blobs te gebruiken als visuele primitieven, ontkoppelt en representeert onze aanpak effectief ruimtelijke locatie, semantische inhoud en identiteitsinformatie, wat precieze element-level manipulatie mogelijk maakt. Onze belangrijkste bijdragen omvatten: 1) een dual-branch diffusiearchitectuur met hiërarchische featurefusie voor naadloze integratie van voorgrond en achtergrond; 2) een zelfgesuperviseerd trainingsparadigma met op maat gemakte data-augmentatie en scorefuncties; en 3) beheersbare dropout-strategieën om trouw en diversiteit in evenwicht te brengen. Om verder onderzoek te ondersteunen, introduceren we BlobData voor grootschalige training en BlobBench voor systematische evaluatie. Experimenten tonen aan dat BlobCtrl uitblinkt in diverse element-level manipulatietaken terwijl het rekenkundige efficiëntie behoudt, en biedt zo een praktische oplossing voor precieze en flexibele visuele contentcreatie. Projectpagina: https://liyaowei-stu.github.io/project/BlobCtrl/
English
Element-level visual manipulation is essential in digital content creation, but current diffusion-based methods lack the precision and flexibility of traditional tools. In this work, we introduce BlobCtrl, a framework that unifies element-level generation and editing using a probabilistic blob-based representation. By employing blobs as visual primitives, our approach effectively decouples and represents spatial location, semantic content, and identity information, enabling precise element-level manipulation. Our key contributions include: 1) a dual-branch diffusion architecture with hierarchical feature fusion for seamless foreground-background integration; 2) a self-supervised training paradigm with tailored data augmentation and score functions; and 3) controllable dropout strategies to balance fidelity and diversity. To support further research, we introduce BlobData for large-scale training and BlobBench for systematic evaluation. Experiments show that BlobCtrl excels in various element-level manipulation tasks while maintaining computational efficiency, offering a practical solution for precise and flexible visual content creation. Project page: https://liyaowei-stu.github.io/project/BlobCtrl/

Summary

AI-Generated Summary

PDF262March 18, 2025