BlobCtrl: Un Marco Unificado y Flexible para la Generación y Edición de Imágenes a Nivel de Elementos
BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing
March 17, 2025
Autores: Yaowei Li, Lingen Li, Zhaoyang Zhang, Xiaoyu Li, Guangzhi Wang, Hongxiang Li, Xiaodong Cun, Ying Shan, Yuexian Zou
cs.AI
Resumen
La manipulación visual a nivel de elementos es esencial en la creación de contenido digital, pero los métodos actuales basados en difusión carecen de la precisión y flexibilidad de las herramientas tradicionales. En este trabajo, presentamos BlobCtrl, un marco que unifica la generación y edición a nivel de elementos utilizando una representación probabilística basada en blobs. Al emplear blobs como primitivas visuales, nuestro enfoque desacopla y representa de manera efectiva la ubicación espacial, el contenido semántico y la información de identidad, permitiendo una manipulación precisa a nivel de elementos. Nuestras contribuciones clave incluyen: 1) una arquitectura de difusión de doble rama con fusión jerárquica de características para una integración perfecta entre primer plano y fondo; 2) un paradigma de entrenamiento auto-supervisado con aumento de datos y funciones de puntuación personalizadas; y 3) estrategias de abandono controlado para equilibrar fidelidad y diversidad. Para apoyar investigaciones futuras, introducimos BlobData para entrenamiento a gran escala y BlobBench para evaluación sistemática. Los experimentos muestran que BlobCtrl sobresale en diversas tareas de manipulación a nivel de elementos mientras mantiene la eficiencia computacional, ofreciendo una solución práctica para la creación de contenido visual preciso y flexible. Página del proyecto: https://liyaowei-stu.github.io/project/BlobCtrl/
English
Element-level visual manipulation is essential in digital content creation,
but current diffusion-based methods lack the precision and flexibility of
traditional tools. In this work, we introduce BlobCtrl, a framework that
unifies element-level generation and editing using a probabilistic blob-based
representation. By employing blobs as visual primitives, our approach
effectively decouples and represents spatial location, semantic content, and
identity information, enabling precise element-level manipulation. Our key
contributions include: 1) a dual-branch diffusion architecture with
hierarchical feature fusion for seamless foreground-background integration; 2)
a self-supervised training paradigm with tailored data augmentation and score
functions; and 3) controllable dropout strategies to balance fidelity and
diversity. To support further research, we introduce BlobData for large-scale
training and BlobBench for systematic evaluation. Experiments show that
BlobCtrl excels in various element-level manipulation tasks while maintaining
computational efficiency, offering a practical solution for precise and
flexible visual content creation. Project page:
https://liyaowei-stu.github.io/project/BlobCtrl/