ChatPaper.aiChatPaper

Neubewertung der globalen Textkonditionierung in Diffusions-Transformatoren

Rethinking Global Text Conditioning in Diffusion Transformers

February 9, 2026
papers.authors: Nikita Starodubcev, Daniil Pakhomov, Zongze Wu, Ilya Drobyshevskiy, Yuchen Liu, Zhonghao Wang, Yuqian Zhou, Zhe Lin, Dmitry Baranchuk
cs.AI

papers.abstract

Diffusion-Transformer integrieren typischerweise Textinformationen über Attention-Layer und einen Modulationsmechanismus unter Verwendung eines gepoolten Text-Embeddings. Jüngere Ansätze verzichten jedoch auf modulationsbasierte Textkonditionierung und stützen sich ausschließlich auf Attention. In diesem Artikel untersuchen wir, ob modulationsbasierte Textkonditionierung notwendig ist und ob sie einen Leistungsvorteil bieten kann. Unsere Analyse zeigt, dass das gepoolte Embedding in seiner konventionellen Verwendung wenig zum Gesamtergebnis beiträgt, was nahelegt, dass Attention allein im Allgemeinen ausreicht, um Prompt-Informationen zuverlässig zu propagieren. Wir zeigen jedoch auf, dass das gepoolte Embedding erhebliche Verbesserungen bringen kann, wenn es aus einer anderen Perspektive genutzt wird – nämlich als Guidance, die kontrollierbare Verschiebungen in Richtung wünschenswerter Eigenschaften ermöglicht. Dieser Ansatz ist trainingsfrei, einfach zu implementieren, verursacht einen vernachlässigbaren Laufzeit-Overhead und kann auf verschiedene Diffusionsmodelle angewendet werden, wodurch Verbesserungen in diversen Aufgaben erzielt werden, einschließlich Text-zu-Bild/Video-Generierung und Bildbearbeitung.
English
Diffusion transformers typically incorporate textual information via attention layers and a modulation mechanism using a pooled text embedding. Nevertheless, recent approaches discard modulation-based text conditioning and rely exclusively on attention. In this paper, we address whether modulation-based text conditioning is necessary and whether it can provide any performance advantage. Our analysis shows that, in its conventional usage, the pooled embedding contributes little to overall performance, suggesting that attention alone is generally sufficient for faithfully propagating prompt information. However, we reveal that the pooled embedding can provide significant gains when used from a different perspective-serving as guidance and enabling controllable shifts toward more desirable properties. This approach is training-free, simple to implement, incurs negligible runtime overhead, and can be applied to various diffusion models, bringing improvements across diverse tasks, including text-to-image/video generation and image editing.
PDF81February 12, 2026