UNCAGE: Orientação por Atenção Contrastiva para Transformadores Generativos Mascarados na Geração de Texto para Imagem
UNCAGE: Contrastive Attention Guidance for Masked Generative Transformers in Text-to-Image Generation
August 7, 2025
Autores: Wonjun Kang, Byeongkeun Ahn, Minjae Lee, Kevin Galim, Seunghyuk Oh, Hyung Il Koo, Nam Ik Cho
cs.AI
Resumo
A geração de texto para imagem (T2I) tem sido ativamente estudada utilizando Modelos de Difusão e Modelos Autoregressivos. Recentemente, Transformadores Generativos Mascarados ganharam atenção como uma alternativa aos Modelos Autoregressivos para superar as limitações inerentes da atenção causal e da decodificação autoregressiva, por meio de atenção bidirecional e decodificação paralela, permitindo a geração eficiente e de alta qualidade de imagens. No entanto, a geração composicional de T2I continua desafiadora, já que até mesmo os Modelos de Difusão mais avançados frequentemente falham em vincular atributos com precisão e alcançar um alinhamento adequado entre texto e imagem. Embora os Modelos de Difusão tenham sido extensivamente estudados para essa questão, os Transformadores Generativos Mascarados exibem limitações semelhantes, mas ainda não foram explorados nesse contexto. Para abordar isso, propomos o Unmasking with Contrastive Attention Guidance (UNCAGE), um método novo e livre de treinamento que melhora a fidelidade composicional ao aproveitar mapas de atenção para priorizar o desmascaramento de tokens que representam claramente objetos individuais. O UNCAGE melhora consistentemente o desempenho em avaliações quantitativas e qualitativas em vários benchmarks e métricas, com sobrecarga de inferência insignificante. Nosso código está disponível em https://github.com/furiosa-ai/uncage.
English
Text-to-image (T2I) generation has been actively studied using Diffusion
Models and Autoregressive Models. Recently, Masked Generative Transformers have
gained attention as an alternative to Autoregressive Models to overcome the
inherent limitations of causal attention and autoregressive decoding through
bidirectional attention and parallel decoding, enabling efficient and
high-quality image generation. However, compositional T2I generation remains
challenging, as even state-of-the-art Diffusion Models often fail to accurately
bind attributes and achieve proper text-image alignment. While Diffusion Models
have been extensively studied for this issue, Masked Generative Transformers
exhibit similar limitations but have not been explored in this context. To
address this, we propose Unmasking with Contrastive Attention Guidance
(UNCAGE), a novel training-free method that improves compositional fidelity by
leveraging attention maps to prioritize the unmasking of tokens that clearly
represent individual objects. UNCAGE consistently improves performance in both
quantitative and qualitative evaluations across multiple benchmarks and
metrics, with negligible inference overhead. Our code is available at
https://github.com/furiosa-ai/uncage.