BlobCtrl: Un Framework Unificato e Flessibile per la Generazione e Modifica di Immagini a Livello di Elemento
BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing
March 17, 2025
Autori: Yaowei Li, Lingen Li, Zhaoyang Zhang, Xiaoyu Li, Guangzhi Wang, Hongxiang Li, Xiaodong Cun, Ying Shan, Yuexian Zou
cs.AI
Abstract
La manipolazione visiva a livello di elemento è essenziale nella creazione di contenuti digitali, ma i metodi attuali basati su diffusione mancano della precisione e flessibilità degli strumenti tradizionali. In questo lavoro, introduciamo BlobCtrl, un framework che unisce generazione e modifica a livello di elemento utilizzando una rappresentazione probabilistica basata su blob. Impiegando i blob come primitive visive, il nostro approccio disaccoppia e rappresenta efficacemente la posizione spaziale, il contenuto semantico e le informazioni di identità, consentendo una manipolazione precisa a livello di elemento. I nostri contributi principali includono: 1) un'architettura di diffusione a doppio ramo con fusione gerarchica delle caratteristiche per un'integrazione senza soluzione di continuità tra primo piano e sfondo; 2) un paradigma di addestramento auto-supervisionato con aumento dei dati e funzioni di punteggio personalizzate; e 3) strategie di dropout controllabili per bilanciare fedeltà e diversità. Per supportare ulteriori ricerche, introduciamo BlobData per l'addestramento su larga scala e BlobBench per la valutazione sistematica. Gli esperimenti dimostrano che BlobCtrl eccelle in varie attività di manipolazione a livello di elemento mantenendo l'efficienza computazionale, offrendo una soluzione pratica per la creazione di contenuti visivi precisi e flessibili. Pagina del progetto: https://liyaowei-stu.github.io/project/BlobCtrl/
English
Element-level visual manipulation is essential in digital content creation,
but current diffusion-based methods lack the precision and flexibility of
traditional tools. In this work, we introduce BlobCtrl, a framework that
unifies element-level generation and editing using a probabilistic blob-based
representation. By employing blobs as visual primitives, our approach
effectively decouples and represents spatial location, semantic content, and
identity information, enabling precise element-level manipulation. Our key
contributions include: 1) a dual-branch diffusion architecture with
hierarchical feature fusion for seamless foreground-background integration; 2)
a self-supervised training paradigm with tailored data augmentation and score
functions; and 3) controllable dropout strategies to balance fidelity and
diversity. To support further research, we introduce BlobData for large-scale
training and BlobBench for systematic evaluation. Experiments show that
BlobCtrl excels in various element-level manipulation tasks while maintaining
computational efficiency, offering a practical solution for precise and
flexible visual content creation. Project page:
https://liyaowei-stu.github.io/project/BlobCtrl/