ChatPaper.aiChatPaper

BlobCtrl: 요소 단위 이미지 생성 및 편집을 위한 통합적이고 유연한 프레임워크

BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing

March 17, 2025
저자: Yaowei Li, Lingen Li, Zhaoyang Zhang, Xiaoyu Li, Guangzhi Wang, Hongxiang Li, Xiaodong Cun, Ying Shan, Yuexian Zou
cs.AI

초록

요소 수준의 시각적 조작은 디지털 콘텐츠 제작에 필수적이지만, 현재의 확산 기반 방법들은 전통적인 도구의 정밀성과 유연성을 갖추지 못하고 있습니다. 본 연구에서는 확률론적 블롭 기반 표현을 사용하여 요소 수준의 생성과 편집을 통합하는 BlobCtrl 프레임워크를 소개합니다. 블롭을 시각적 기본 요소로 사용함으로써, 우리의 접근 방식은 공간적 위치, 의미론적 내용, 그리고 식별 정보를 효과적으로 분리하고 표현하여 정밀한 요소 수준의 조작을 가능하게 합니다. 우리의 주요 기여는 다음과 같습니다: 1) 원활한 전경-배경 통합을 위한 계층적 특징 융합을 갖춘 이중 분기 확산 아키텍처; 2) 맞춤형 데이터 증강과 점수 함수를 사용한 자기 지도 학습 패러다임; 3) 충실도와 다양성의 균형을 맞추기 위한 제어 가능한 드롭아웃 전략. 추가 연구를 지원하기 위해, 대규모 학습을 위한 BlobData와 체계적인 평가를 위한 BlobBench를 도입했습니다. 실험 결과, BlobCtrl은 다양한 요소 수준의 조작 작업에서 우수한 성능을 보이면서도 계산 효율성을 유지하여, 정밀하고 유연한 시각적 콘텐츠 제작을 위한 실용적인 솔루션을 제공합니다. 프로젝트 페이지: https://liyaowei-stu.github.io/project/BlobCtrl/
English
Element-level visual manipulation is essential in digital content creation, but current diffusion-based methods lack the precision and flexibility of traditional tools. In this work, we introduce BlobCtrl, a framework that unifies element-level generation and editing using a probabilistic blob-based representation. By employing blobs as visual primitives, our approach effectively decouples and represents spatial location, semantic content, and identity information, enabling precise element-level manipulation. Our key contributions include: 1) a dual-branch diffusion architecture with hierarchical feature fusion for seamless foreground-background integration; 2) a self-supervised training paradigm with tailored data augmentation and score functions; and 3) controllable dropout strategies to balance fidelity and diversity. To support further research, we introduce BlobData for large-scale training and BlobBench for systematic evaluation. Experiments show that BlobCtrl excels in various element-level manipulation tasks while maintaining computational efficiency, offering a practical solution for precise and flexible visual content creation. Project page: https://liyaowei-stu.github.io/project/BlobCtrl/

Summary

AI-Generated Summary

PDF262March 18, 2025