GrounDiT: Transformadores de Difusão de Fundamentação via Transplantação de Patches Ruidosos
GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation
October 27, 2024
Autores: Phillip Y. Lee, Taehoon Yoon, Minhyuk Sung
cs.AI
Resumo
Apresentamos uma nova técnica de fundamentação espacial sem treinamento para geração de texto para imagem usando Transformadores de Difusão (DiT). A fundamentação espacial com caixas delimitadoras tem ganhado atenção por sua simplicidade e versatilidade, permitindo um controle aprimorado do usuário na geração de imagens. No entanto, abordagens anteriores sem treinamento frequentemente dependem da atualização da imagem ruidosa durante o processo de difusão reversa por meio de retropropagação a partir de funções de perda personalizadas, que frequentemente têm dificuldade em fornecer controle preciso sobre caixas delimitadoras individuais. Neste trabalho, aproveitamos a flexibilidade da arquitetura Transformer, demonstrando que o DiT pode gerar patches ruidosos correspondentes a cada caixa delimitadora, codificando totalmente o objeto alvo e permitindo um controle detalhado sobre cada região. Nossa abordagem se baseia em uma propriedade intrigante do DiT, que chamamos de compartilhamento semântico. Devido ao compartilhamento semântico, quando um patch menor é conjuntamente desenruido juntamente com uma imagem de tamanho gerável, os dois se tornam "clones semânticos". Cada patch é desenruido em seu próprio ramo do processo de geração e depois transplantado para a região correspondente da imagem ruidosa original em cada passo de tempo, resultando em uma fundamentação espacial robusta para cada caixa delimitadora. Em nossos experimentos nos benchmarks HRS e DrawBench, alcançamos desempenho de ponta em comparação com abordagens anteriores de fundamentação espacial sem treinamento.
English
We introduce a novel training-free spatial grounding technique for
text-to-image generation using Diffusion Transformers (DiT). Spatial grounding
with bounding boxes has gained attention for its simplicity and versatility,
allowing for enhanced user control in image generation. However, prior
training-free approaches often rely on updating the noisy image during the
reverse diffusion process via backpropagation from custom loss functions, which
frequently struggle to provide precise control over individual bounding boxes.
In this work, we leverage the flexibility of the Transformer architecture,
demonstrating that DiT can generate noisy patches corresponding to each
bounding box, fully encoding the target object and allowing for fine-grained
control over each region. Our approach builds on an intriguing property of DiT,
which we refer to as semantic sharing. Due to semantic sharing, when a smaller
patch is jointly denoised alongside a generatable-size image, the two become
"semantic clones". Each patch is denoised in its own branch of the generation
process and then transplanted into the corresponding region of the original
noisy image at each timestep, resulting in robust spatial grounding for each
bounding box. In our experiments on the HRS and DrawBench benchmarks, we
achieve state-of-the-art performance compared to previous training-free spatial
grounding approaches.Summary
AI-Generated Summary