ChatPaper.aiChatPaper

UNCAGE: Orientação por Atenção Contrastiva para Transformadores Generativos Mascarados na Geração de Texto para Imagem

UNCAGE: Contrastive Attention Guidance for Masked Generative Transformers in Text-to-Image Generation

August 7, 2025
Autores: Wonjun Kang, Byeongkeun Ahn, Minjae Lee, Kevin Galim, Seunghyuk Oh, Hyung Il Koo, Nam Ik Cho
cs.AI

Resumo

A geração de texto para imagem (T2I) tem sido ativamente estudada utilizando Modelos de Difusão e Modelos Autoregressivos. Recentemente, Transformadores Generativos Mascarados ganharam atenção como uma alternativa aos Modelos Autoregressivos para superar as limitações inerentes da atenção causal e da decodificação autoregressiva, por meio de atenção bidirecional e decodificação paralela, permitindo a geração eficiente e de alta qualidade de imagens. No entanto, a geração composicional de T2I continua desafiadora, já que até mesmo os Modelos de Difusão mais avançados frequentemente falham em vincular atributos com precisão e alcançar um alinhamento adequado entre texto e imagem. Embora os Modelos de Difusão tenham sido extensivamente estudados para essa questão, os Transformadores Generativos Mascarados exibem limitações semelhantes, mas ainda não foram explorados nesse contexto. Para abordar isso, propomos o Unmasking with Contrastive Attention Guidance (UNCAGE), um método novo e livre de treinamento que melhora a fidelidade composicional ao aproveitar mapas de atenção para priorizar o desmascaramento de tokens que representam claramente objetos individuais. O UNCAGE melhora consistentemente o desempenho em avaliações quantitativas e qualitativas em vários benchmarks e métricas, com sobrecarga de inferência insignificante. Nosso código está disponível em https://github.com/furiosa-ai/uncage.
English
Text-to-image (T2I) generation has been actively studied using Diffusion Models and Autoregressive Models. Recently, Masked Generative Transformers have gained attention as an alternative to Autoregressive Models to overcome the inherent limitations of causal attention and autoregressive decoding through bidirectional attention and parallel decoding, enabling efficient and high-quality image generation. However, compositional T2I generation remains challenging, as even state-of-the-art Diffusion Models often fail to accurately bind attributes and achieve proper text-image alignment. While Diffusion Models have been extensively studied for this issue, Masked Generative Transformers exhibit similar limitations but have not been explored in this context. To address this, we propose Unmasking with Contrastive Attention Guidance (UNCAGE), a novel training-free method that improves compositional fidelity by leveraging attention maps to prioritize the unmasking of tokens that clearly represent individual objects. UNCAGE consistently improves performance in both quantitative and qualitative evaluations across multiple benchmarks and metrics, with negligible inference overhead. Our code is available at https://github.com/furiosa-ai/uncage.
PDF164August 13, 2025