BlobCtrl: 要素レベルでの画像生成と編集のための統合的で柔軟なフレームワーク
BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing
March 17, 2025
著者: Yaowei Li, Lingen Li, Zhaoyang Zhang, Xiaoyu Li, Guangzhi Wang, Hongxiang Li, Xiaodong Cun, Ying Shan, Yuexian Zou
cs.AI
要旨
要素レベルの視覚的編集はデジタルコンテンツ制作において不可欠ですが、現在の拡散モデルベースの手法は従来のツールに比べて精度と柔軟性に欠けています。本研究では、確率的なブロブベース表現を用いて要素レベルの生成と編集を統合するフレームワーク、BlobCtrlを提案します。ブロブを視覚的プリミティブとして採用することで、空間的位置、意味的コンテンツ、識別情報を効果的に分離・表現し、精密な要素レベルの操作を可能にします。主な貢献は以下の通りです:1) 前景と背景のシームレスな統合のための階層的特徴融合を備えたデュアルブランチ拡散アーキテクチャ、2) データ拡張とスコア関数を調整した自己教師あり学習パラダイム、3) 忠実度と多様性のバランスを取るための制御可能なドロップアウト戦略。さらなる研究を支援するため、大規模な学習用のBlobDataと体系的な評価用のBlobBenchを導入しました。実験結果から、BlobCtrlは計算効率を維持しつつ様々な要素レベルの編集タスクで優れた性能を発揮し、精密かつ柔軟な視覚コンテンツ制作の実用的なソリューションを提供することが示されました。プロジェクトページ:https://liyaowei-stu.github.io/project/BlobCtrl/
English
Element-level visual manipulation is essential in digital content creation,
but current diffusion-based methods lack the precision and flexibility of
traditional tools. In this work, we introduce BlobCtrl, a framework that
unifies element-level generation and editing using a probabilistic blob-based
representation. By employing blobs as visual primitives, our approach
effectively decouples and represents spatial location, semantic content, and
identity information, enabling precise element-level manipulation. Our key
contributions include: 1) a dual-branch diffusion architecture with
hierarchical feature fusion for seamless foreground-background integration; 2)
a self-supervised training paradigm with tailored data augmentation and score
functions; and 3) controllable dropout strategies to balance fidelity and
diversity. To support further research, we introduce BlobData for large-scale
training and BlobBench for systematic evaluation. Experiments show that
BlobCtrl excels in various element-level manipulation tasks while maintaining
computational efficiency, offering a practical solution for precise and
flexible visual content creation. Project page:
https://liyaowei-stu.github.io/project/BlobCtrl/Summary
AI-Generated Summary