BlobCtrl: Um Framework Unificado e Flexível para Geração e Edição de Imagens em Nível de Elemento

Resumo

A manipulação visual em nível de elemento é essencial na criação de conteúdo digital, mas os métodos atuais baseados em difusão carecem da precisão e flexibilidade das ferramentas tradicionais. Neste trabalho, apresentamos o BlobCtrl, um framework que unifica a geração e edição em nível de elemento utilizando uma representação probabilística baseada em blobs. Ao empregar blobs como primitivas visuais, nossa abordagem efetivamente desacopla e representa a localização espacial, o conteúdo semântico e as informações de identidade, permitindo uma manipulação precisa em nível de elemento. Nossas principais contribuições incluem: 1) uma arquitetura de difusão de ramificação dupla com fusão hierárquica de características para integração perfeita entre primeiro plano e fundo; 2) um paradigma de treinamento auto-supervisionado com aumento de dados personalizado e funções de pontuação; e 3) estratégias de dropout controlável para equilibrar fidelidade e diversidade. Para apoiar pesquisas futuras, introduzimos o BlobData para treinamento em larga escala e o BlobBench para avaliação sistemática. Experimentos mostram que o BlobCtrl se destaca em várias tarefas de manipulação em nível de elemento, mantendo a eficiência computacional, oferecendo uma solução prática para a criação de conteúdo visual preciso e flexível. Página do projeto: https://liyaowei-stu.github.io/project/BlobCtrl/

English

Element-level visual manipulation is essential in digital content creation, but current diffusion-based methods lack the precision and flexibility of traditional tools. In this work, we introduce BlobCtrl, a framework that unifies element-level generation and editing using a probabilistic blob-based representation. By employing blobs as visual primitives, our approach effectively decouples and represents spatial location, semantic content, and identity information, enabling precise element-level manipulation. Our key contributions include: 1) a dual-branch diffusion architecture with hierarchical feature fusion for seamless foreground-background integration; 2) a self-supervised training paradigm with tailored data augmentation and score functions; and 3) controllable dropout strategies to balance fidelity and diversity. To support further research, we introduce BlobData for large-scale training and BlobBench for systematic evaluation. Experiments show that BlobCtrl excels in various element-level manipulation tasks while maintaining computational efficiency, offering a practical solution for precise and flexible visual content creation. Project page: https://liyaowei-stu.github.io/project/BlobCtrl/

BlobCtrl: Um Framework Unificado e Flexível para Geração e Edição de Imagens em Nível de Elemento

BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing

Resumo

Support