ChatPaper.aiChatPaper

Сочиняй и побеждай: диффузионный подход к синтезу композиционных изображений с учетом 3D глубины

Compose and Conquer: Diffusion-Based 3D Depth Aware Composable Image Synthesis

January 17, 2024
Авторы: Jonghyun Lee, Hansam Cho, Youngjoon Yoo, Seoung Bum Kim, Yonghyun Jeong
cs.AI

Аннотация

Учитывая ограничения текста как источника точного представления компоновки в диффузионных моделях, обусловленных текстом, многие работы включают дополнительные сигналы для управления определёнными атрибутами в генерируемом изображении. Хотя эти подходы успешны, предыдущие работы не учитывают конкретное расположение указанных атрибутов, расширенное в трёхмерное пространство. В этом контексте мы представляем условную диффузионную модель, которая интегрирует контроль над трёхмерным размещением объектов с разделёнными представлениями глобальной стилистической семантики из нескольких примеров изображений. В частности, мы сначала вводим обучение с разделением глубины, чтобы использовать относительную глубину объектов в качестве оценки, позволяя модели определять абсолютные позиции невидимых объектов с использованием синтетических триплетов изображений. Мы также представляем мягкое управление — метод наложения глобальной семантики на целевые области без использования дополнительных локализационных подсказок. Наша интегрированная структура, Compose and Conquer (CnC), объединяет эти техники для локализации множества условий в разделённой манере. Мы демонстрируем, что наш подход позволяет воспринимать объекты на различных глубинах, предлагая универсальную структуру для компоновки локализованных объектов с различной глобальной семантикой. Код: https://github.com/tomtom1103/compose-and-conquer/
English
Addressing the limitations of text as a source of accurate layout representation in text-conditional diffusion models, many works incorporate additional signals to condition certain attributes within a generated image. Although successful, previous works do not account for the specific localization of said attributes extended into the three dimensional plane. In this context, we present a conditional diffusion model that integrates control over three-dimensional object placement with disentangled representations of global stylistic semantics from multiple exemplar images. Specifically, we first introduce depth disentanglement training to leverage the relative depth of objects as an estimator, allowing the model to identify the absolute positions of unseen objects through the use of synthetic image triplets. We also introduce soft guidance, a method for imposing global semantics onto targeted regions without the use of any additional localization cues. Our integrated framework, Compose and Conquer (CnC), unifies these techniques to localize multiple conditions in a disentangled manner. We demonstrate that our approach allows perception of objects at varying depths while offering a versatile framework for composing localized objects with different global semantics. Code: https://github.com/tomtom1103/compose-and-conquer/
PDF102December 15, 2024