Repensando o Condicionamento Global de Texto em Transformadores de Difusão
Rethinking Global Text Conditioning in Diffusion Transformers
February 9, 2026
Autores: Nikita Starodubcev, Daniil Pakhomov, Zongze Wu, Ilya Drobyshevskiy, Yuchen Liu, Zhonghao Wang, Yuqian Zhou, Zhe Lin, Dmitry Baranchuk
cs.AI
Resumo
Os transformadores de difusão normalmente incorporam informações textuais através de camadas de atenção e um mecanismo de modulação usando uma incorporação de texto agregada. No entanto, abordagens recentes descartam o condicionamento textual baseado em modulação e dependem exclusivamente da atenção. Neste artigo, investigamos se o condicionamento textual baseado em modulação é necessário e se pode oferecer alguma vantagem de desempenho. Nossa análise mostra que, em seu uso convencional, a incorporação agregada contribui pouco para o desempenho geral, sugerindo que a atenção por si só geralmente é suficiente para propagar fielmente as informações do prompt. No entanto, revelamos que a incorporação agregada pode fornecer ganhos significativos quando usada de uma perspectiva diferente - servindo como orientação e permitindo deslocamentos controláveis em direção a propriedades mais desejáveis. Esta abordagem não requer treinamento, é simples de implementar, incorre em sobrecarga computacional insignificante e pode ser aplicada a vários modelos de difusão, trazendo melhorias em diversas tarefas, incluindo geração texto-para-imagem/vídeo e edição de imagem.
English
Diffusion transformers typically incorporate textual information via attention layers and a modulation mechanism using a pooled text embedding. Nevertheless, recent approaches discard modulation-based text conditioning and rely exclusively on attention. In this paper, we address whether modulation-based text conditioning is necessary and whether it can provide any performance advantage. Our analysis shows that, in its conventional usage, the pooled embedding contributes little to overall performance, suggesting that attention alone is generally sufficient for faithfully propagating prompt information. However, we reveal that the pooled embedding can provide significant gains when used from a different perspective-serving as guidance and enabling controllable shifts toward more desirable properties. This approach is training-free, simple to implement, incurs negligible runtime overhead, and can be applied to various diffusion models, bringing improvements across diverse tasks, including text-to-image/video generation and image editing.