ChatPaper.aiChatPaper

BlobCtrl : Un Cadre Unifié et Flexible pour la Génération et la Modification d'Images au Niveau des Éléments

BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing

March 17, 2025
Auteurs: Yaowei Li, Lingen Li, Zhaoyang Zhang, Xiaoyu Li, Guangzhi Wang, Hongxiang Li, Xiaodong Cun, Ying Shan, Yuexian Zou
cs.AI

Résumé

La manipulation visuelle au niveau des éléments est essentielle dans la création de contenu numérique, mais les méthodes actuelles basées sur la diffusion manquent de précision et de flexibilité par rapport aux outils traditionnels. Dans ce travail, nous présentons BlobCtrl, un cadre unifiant la génération et l'édition au niveau des éléments grâce à une représentation probabiliste basée sur des blobs. En utilisant les blobs comme primitives visuelles, notre approche découple et représente efficacement l'emplacement spatial, le contenu sémantique et les informations d'identité, permettant une manipulation précise au niveau des éléments. Nos contributions principales incluent : 1) une architecture de diffusion à double branche avec fusion hiérarchique des caractéristiques pour une intégration fluide entre l'avant-plan et l'arrière-plan ; 2) un paradigme d'apprentissage auto-supervisé avec augmentation de données et fonctions de score adaptées ; et 3) des stratégies de dropout contrôlées pour équilibrer fidélité et diversité. Pour soutenir la recherche future, nous introduisons BlobData pour l'entraînement à grande échelle et BlobBench pour l'évaluation systématique. Les expériences montrent que BlobCtrl excelle dans diverses tâches de manipulation au niveau des éléments tout en maintenant une efficacité computationnelle, offrant une solution pratique pour une création de contenu visuel précise et flexible. Page du projet : https://liyaowei-stu.github.io/project/BlobCtrl/
English
Element-level visual manipulation is essential in digital content creation, but current diffusion-based methods lack the precision and flexibility of traditional tools. In this work, we introduce BlobCtrl, a framework that unifies element-level generation and editing using a probabilistic blob-based representation. By employing blobs as visual primitives, our approach effectively decouples and represents spatial location, semantic content, and identity information, enabling precise element-level manipulation. Our key contributions include: 1) a dual-branch diffusion architecture with hierarchical feature fusion for seamless foreground-background integration; 2) a self-supervised training paradigm with tailored data augmentation and score functions; and 3) controllable dropout strategies to balance fidelity and diversity. To support further research, we introduce BlobData for large-scale training and BlobBench for systematic evaluation. Experiments show that BlobCtrl excels in various element-level manipulation tasks while maintaining computational efficiency, offering a practical solution for precise and flexible visual content creation. Project page: https://liyaowei-stu.github.io/project/BlobCtrl/

Summary

AI-Generated Summary

PDF262March 18, 2025