ChatPaper.aiChatPaper

GrounDiT: Закрепление трансформеров диффузии через шумное патч-пересадку

GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation

October 27, 2024
Авторы: Phillip Y. Lee, Taehoon Yoon, Minhyuk Sung
cs.AI

Аннотация

Мы представляем новую методику пространственной привязки без обучения для генерации изображений по тексту с использованием Диффузионных Трансформеров (DiT). Пространственная привязка с помощью ограничивающих рамок привлекла внимание своей простотой и универсальностью, позволяя улучшить контроль пользователя при генерации изображений. Однако предыдущие методы без обучения часто полагаются на обновление шумного изображения в процессе обратной диффузии с помощью обратного распространения ошибки от пользовательских функций потерь, что часто затрудняет точный контроль над отдельными ограничивающими рамками. В данной работе мы используем гибкость архитектуры Трансформера, показывая, что DiT может генерировать шумные участки, соответствующие каждой ограничивающей рамке, полностью кодируя целевой объект и позволяя тонкоконтрольно управлять каждым регионом. Наш подход основан на интересном свойстве DiT, которое мы называем семантическим совместным использованием. Благодаря семантическому совместному использованию, когда более маленький участок совместно денуаризуется вместе с изображением генерируемого размера, они становятся "семантическими клонами". Каждый участок денуаризуется в своей собственной ветви процесса генерации, а затем трансплантируется в соответствующий регион оригинального шумного изображения на каждом временном шаге, что приводит к надежной пространственной привязке для каждой ограничивающей рамки. В наших экспериментах на бенчмарках HRS и DrawBench мы достигаем лучшей производительности по сравнению с предыдущими методами пространственной привязки без обучения.
English
We introduce a novel training-free spatial grounding technique for text-to-image generation using Diffusion Transformers (DiT). Spatial grounding with bounding boxes has gained attention for its simplicity and versatility, allowing for enhanced user control in image generation. However, prior training-free approaches often rely on updating the noisy image during the reverse diffusion process via backpropagation from custom loss functions, which frequently struggle to provide precise control over individual bounding boxes. In this work, we leverage the flexibility of the Transformer architecture, demonstrating that DiT can generate noisy patches corresponding to each bounding box, fully encoding the target object and allowing for fine-grained control over each region. Our approach builds on an intriguing property of DiT, which we refer to as semantic sharing. Due to semantic sharing, when a smaller patch is jointly denoised alongside a generatable-size image, the two become "semantic clones". Each patch is denoised in its own branch of the generation process and then transplanted into the corresponding region of the original noisy image at each timestep, resulting in robust spatial grounding for each bounding box. In our experiments on the HRS and DrawBench benchmarks, we achieve state-of-the-art performance compared to previous training-free spatial grounding approaches.

Summary

AI-Generated Summary

PDF142November 16, 2024