BlobCtrl: Um Framework Unificado e Flexível para Geração e Edição de Imagens em Nível de Elemento
BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing
March 17, 2025
Autores: Yaowei Li, Lingen Li, Zhaoyang Zhang, Xiaoyu Li, Guangzhi Wang, Hongxiang Li, Xiaodong Cun, Ying Shan, Yuexian Zou
cs.AI
Resumo
A manipulação visual em nível de elemento é essencial na criação de conteúdo digital, mas os métodos atuais baseados em difusão carecem da precisão e flexibilidade das ferramentas tradicionais. Neste trabalho, apresentamos o BlobCtrl, um framework que unifica a geração e edição em nível de elemento utilizando uma representação probabilística baseada em blobs. Ao empregar blobs como primitivas visuais, nossa abordagem efetivamente desacopla e representa a localização espacial, o conteúdo semântico e as informações de identidade, permitindo uma manipulação precisa em nível de elemento. Nossas principais contribuições incluem: 1) uma arquitetura de difusão de ramificação dupla com fusão hierárquica de características para integração perfeita entre primeiro plano e fundo; 2) um paradigma de treinamento auto-supervisionado com aumento de dados personalizado e funções de pontuação; e 3) estratégias de dropout controlável para equilibrar fidelidade e diversidade. Para apoiar pesquisas futuras, introduzimos o BlobData para treinamento em larga escala e o BlobBench para avaliação sistemática. Experimentos mostram que o BlobCtrl se destaca em várias tarefas de manipulação em nível de elemento, mantendo a eficiência computacional, oferecendo uma solução prática para a criação de conteúdo visual preciso e flexível. Página do projeto: https://liyaowei-stu.github.io/project/BlobCtrl/
English
Element-level visual manipulation is essential in digital content creation,
but current diffusion-based methods lack the precision and flexibility of
traditional tools. In this work, we introduce BlobCtrl, a framework that
unifies element-level generation and editing using a probabilistic blob-based
representation. By employing blobs as visual primitives, our approach
effectively decouples and represents spatial location, semantic content, and
identity information, enabling precise element-level manipulation. Our key
contributions include: 1) a dual-branch diffusion architecture with
hierarchical feature fusion for seamless foreground-background integration; 2)
a self-supervised training paradigm with tailored data augmentation and score
functions; and 3) controllable dropout strategies to balance fidelity and
diversity. To support further research, we introduce BlobData for large-scale
training and BlobBench for systematic evaluation. Experiments show that
BlobCtrl excels in various element-level manipulation tasks while maintaining
computational efficiency, offering a practical solution for precise and
flexible visual content creation. Project page:
https://liyaowei-stu.github.io/project/BlobCtrl/Summary
AI-Generated Summary