ChatPaper.aiChatPaper

拡散トランスフォーマーにおけるグローバルテキスト条件付けの再考

Rethinking Global Text Conditioning in Diffusion Transformers

February 9, 2026
著者: Nikita Starodubcev, Daniil Pakhomov, Zongze Wu, Ilya Drobyshevskiy, Yuchen Liu, Zhonghao Wang, Yuqian Zhou, Zhe Lin, Dmitry Baranchuk
cs.AI

要旨

拡散トランスフォーマーは、一般に注意層によるテキスト情報の組み込みと、プール化されたテキスト埋め込みを用いた調整機構を採用している。しかし、最近の手法では調整ベースのテキスト条件付けを廃し、注意機構のみに依存する傾向にある。本論文では、調整ベースのテキスト条件付けが本当に必要か、また性能上の優位性をもたらし得るかという問題に取り組む。分析の結果、従来の用法では、プール化された埋め込みは全体の性能にほとんど寄与せず、プロンプト情報を忠実に伝達するには注意機構のみで通常は十分であることが示唆された。しかし我々は、異なる視点―すなわちガイダンスとして機能させ、より望ましい特性への制御可能なシフトを可能にする―から用いた場合、プール化された埋め込みが大きな性能向上をもたらし得ることを明らかにする。この手法は学習不要で実装が簡単、実行時のオーバーヘッドは無視でき、様々な拡散モデルに適用可能であり、テキストからの画像・動画生成や画像編集など、多様なタスクにおいて改善をもたらす。
English
Diffusion transformers typically incorporate textual information via attention layers and a modulation mechanism using a pooled text embedding. Nevertheless, recent approaches discard modulation-based text conditioning and rely exclusively on attention. In this paper, we address whether modulation-based text conditioning is necessary and whether it can provide any performance advantage. Our analysis shows that, in its conventional usage, the pooled embedding contributes little to overall performance, suggesting that attention alone is generally sufficient for faithfully propagating prompt information. However, we reveal that the pooled embedding can provide significant gains when used from a different perspective-serving as guidance and enabling controllable shifts toward more desirable properties. This approach is training-free, simple to implement, incurs negligible runtime overhead, and can be applied to various diffusion models, bringing improvements across diverse tasks, including text-to-image/video generation and image editing.
PDF81February 12, 2026