ChatPaper.aiChatPaper

DreamRenderer: Управление атрибутами множественных экземпляров в крупномасштабных моделях преобразования текста в изображения

DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models

March 17, 2025
Авторы: Dewei Zhou, Mingwei Li, Zongxin Yang, Yi Yang
cs.AI

Аннотация

Методы генерации, основанные на изображениях, такие как подходы, использующие данные о глубине и границах (canny), продемонстрировали впечатляющие возможности для точного синтеза изображений. Однако существующие модели по-прежнему сталкиваются с трудностями в точном управлении содержимым нескольких экземпляров (или областей). Даже передовые модели, такие как FLUX и 3DIS, сталкиваются с проблемами, такими как утечка атрибутов между экземплярами, что ограничивает контроль со стороны пользователя. Для решения этих проблем мы представляем DreamRenderer, подход, не требующий обучения, построенный на основе модели FLUX. DreamRenderer позволяет пользователям управлять содержимым каждого экземпляра с помощью ограничивающих рамок или масок, обеспечивая при этом общую визуальную гармонию. Мы предлагаем два ключевых нововведения: 1) Мостовые токены изображений для жесткой привязки текстовых атрибутов, которые используют реплицированные токены изображений в качестве мостовых токенов, чтобы гарантировать, что текстовые эмбеддинги T5, предварительно обученные исключительно на текстовых данных, связывают правильные визуальные атрибуты для каждого экземпляра во время совместного внимания (Joint Attention); 2) Жесткая привязка атрибутов изображений, применяемая только к ключевым слоям. В результате анализа FLUX мы определили критические слои, ответственные за рендеринг атрибутов экземпляров, и применяем жесткую привязку атрибутов изображений только в этих слоях, используя мягкую привязку в остальных. Этот подход обеспечивает точный контроль при сохранении качества изображения. Оценки на бенчмарках COCO-POS и COCO-MIG показывают, что DreamRenderer улучшает коэффициент успешности изображений (Image Success Ratio) на 17,7% по сравнению с FLUX и повышает производительность моделей, преобразующих макет в изображение, таких как GLIGEN и 3DIS, до 26,8%. Страница проекта: https://limuloo.github.io/DreamRenderer/.
English
Image-conditioned generation methods, such as depth- and canny-conditioned approaches, have demonstrated remarkable abilities for precise image synthesis. However, existing models still struggle to accurately control the content of multiple instances (or regions). Even state-of-the-art models like FLUX and 3DIS face challenges, such as attribute leakage between instances, which limits user control. To address these issues, we introduce DreamRenderer, a training-free approach built upon the FLUX model. DreamRenderer enables users to control the content of each instance via bounding boxes or masks, while ensuring overall visual harmony. We propose two key innovations: 1) Bridge Image Tokens for Hard Text Attribute Binding, which uses replicated image tokens as bridge tokens to ensure that T5 text embeddings, pre-trained solely on text data, bind the correct visual attributes for each instance during Joint Attention; 2) Hard Image Attribute Binding applied only to vital layers. Through our analysis of FLUX, we identify the critical layers responsible for instance attribute rendering and apply Hard Image Attribute Binding only in these layers, using soft binding in the others. This approach ensures precise control while preserving image quality. Evaluations on the COCO-POS and COCO-MIG benchmarks demonstrate that DreamRenderer improves the Image Success Ratio by 17.7% over FLUX and enhances the performance of layout-to-image models like GLIGEN and 3DIS by up to 26.8%. Project Page: https://limuloo.github.io/DreamRenderer/.

Summary

AI-Generated Summary

PDF443March 18, 2025