BlobCtrl: Унифицированная и гибкая платформа для генерации и редактирования изображений на уровне элементов
BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing
March 17, 2025
Авторы: Yaowei Li, Lingen Li, Zhaoyang Zhang, Xiaoyu Li, Guangzhi Wang, Hongxiang Li, Xiaodong Cun, Ying Shan, Yuexian Zou
cs.AI
Аннотация
Манипуляции на уровне элементов играют ключевую роль в создании цифрового контента, однако современные методы, основанные на диффузии, уступают в точности и гибкости традиционным инструментам. В данной работе мы представляем BlobCtrl — фреймворк, объединяющий генерацию и редактирование на уровне элементов с использованием вероятностного представления на основе blob-ов. Используя blob-ы как визуальные примитивы, наш подход эффективно разделяет и представляет пространственное расположение, семантическое содержание и информацию о идентичности, что позволяет осуществлять точные манипуляции на уровне элементов. Наши ключевые вклады включают: 1) двухветвевую архитектуру диффузии с иерархическим слиянием признаков для бесшовной интеграции переднего плана и фона; 2) самообучаемую парадигму с адаптированным увеличением данных и функциями оценки; и 3) управляемые стратегии dropout для баланса между точностью и разнообразием. Для поддержки дальнейших исследований мы представляем BlobData для масштабного обучения и BlobBench для систематической оценки. Эксперименты показывают, что BlobCtrl превосходит в различных задачах манипуляции на уровне элементов, сохраняя при этом вычислительную эффективность, предлагая практическое решение для точного и гибкого создания визуального контента. Страница проекта: https://liyaowei-stu.github.io/project/BlobCtrl/
English
Element-level visual manipulation is essential in digital content creation,
but current diffusion-based methods lack the precision and flexibility of
traditional tools. In this work, we introduce BlobCtrl, a framework that
unifies element-level generation and editing using a probabilistic blob-based
representation. By employing blobs as visual primitives, our approach
effectively decouples and represents spatial location, semantic content, and
identity information, enabling precise element-level manipulation. Our key
contributions include: 1) a dual-branch diffusion architecture with
hierarchical feature fusion for seamless foreground-background integration; 2)
a self-supervised training paradigm with tailored data augmentation and score
functions; and 3) controllable dropout strategies to balance fidelity and
diversity. To support further research, we introduce BlobData for large-scale
training and BlobBench for systematic evaluation. Experiments show that
BlobCtrl excels in various element-level manipulation tasks while maintaining
computational efficiency, offering a practical solution for precise and
flexible visual content creation. Project page:
https://liyaowei-stu.github.io/project/BlobCtrl/Summary
AI-Generated Summary