GrounDiT: Transformadores de Difusión de Anclaje a través de Trasplante de Parches Ruidosos
GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation
October 27, 2024
Autores: Phillip Y. Lee, Taehoon Yoon, Minhyuk Sung
cs.AI
Resumen
Introducimos una novedosa técnica de anclaje espacial sin entrenamiento para la generación de texto a imagen utilizando Transformadores de Difusión (DiT). El anclaje espacial con cajas delimitadoras ha ganado atención por su simplicidad y versatilidad, permitiendo un mayor control por parte del usuario en la generación de imágenes. Sin embargo, enfoques previos sin entrenamiento a menudo dependen de actualizar la imagen ruidosa durante el proceso de difusión inversa a través de retropropagación desde funciones de pérdida personalizadas, lo que frecuentemente dificulta proporcionar un control preciso sobre cada caja delimitadora individual. En este trabajo, aprovechamos la flexibilidad de la arquitectura Transformer, demostrando que DiT puede generar parches ruidosos correspondientes a cada caja delimitadora, codificando completamente el objeto objetivo y permitiendo un control detallado sobre cada región. Nuestro enfoque se basa en una propiedad intrigante de DiT, a la que nos referimos como compartición semántica. Debido a la compartición semántica, cuando un parche más pequeño se desruidiza conjuntamente con una imagen de tamaño generable, los dos se convierten en "clones semánticos". Cada parche se desruidiza en su propia rama del proceso de generación y luego se trasplanta en la región correspondiente de la imagen ruidosa original en cada paso de tiempo, lo que resulta en un anclaje espacial robusto para cada caja delimitadora. En nuestros experimentos en los conjuntos de datos HRS y DrawBench, logramos un rendimiento de vanguardia en comparación con enfoques previos de anclaje espacial sin entrenamiento.
English
We introduce a novel training-free spatial grounding technique for
text-to-image generation using Diffusion Transformers (DiT). Spatial grounding
with bounding boxes has gained attention for its simplicity and versatility,
allowing for enhanced user control in image generation. However, prior
training-free approaches often rely on updating the noisy image during the
reverse diffusion process via backpropagation from custom loss functions, which
frequently struggle to provide precise control over individual bounding boxes.
In this work, we leverage the flexibility of the Transformer architecture,
demonstrating that DiT can generate noisy patches corresponding to each
bounding box, fully encoding the target object and allowing for fine-grained
control over each region. Our approach builds on an intriguing property of DiT,
which we refer to as semantic sharing. Due to semantic sharing, when a smaller
patch is jointly denoised alongside a generatable-size image, the two become
"semantic clones". Each patch is denoised in its own branch of the generation
process and then transplanted into the corresponding region of the original
noisy image at each timestep, resulting in robust spatial grounding for each
bounding box. In our experiments on the HRS and DrawBench benchmarks, we
achieve state-of-the-art performance compared to previous training-free spatial
grounding approaches.Summary
AI-Generated Summary