ChatPaper.aiChatPaper

확산 트랜스포머에서 글로벌 텍스트 조건화 재고하기

Rethinking Global Text Conditioning in Diffusion Transformers

February 9, 2026
저자: Nikita Starodubcev, Daniil Pakhomov, Zongze Wu, Ilya Drobyshevskiy, Yuchen Liu, Zhonghao Wang, Yuqian Zhou, Zhe Lin, Dmitry Baranchuk
cs.AI

초록

디퓨전 트랜스포머는 일반적으로 어텐션 레이어와 풀링된 텍스트 임베딩을 활용한 변조 메커니즘을 통해 텍스트 정보를 통합합니다. 그러나 최근 접근법들은 변조 기반 텍스트 조건화를 배제하고 오로지 어텐션에만 의존합니다. 본 논문에서는 변조 기반 텍스트 조건화가 필요한지, 그리고 성능 향상의 이점을 제공할 수 있는지에 대해 다룹니다. 우리의 분석에 따르면, 기존 사용 방식에서 풀링된 임베딩은 전체 성능에 거의 기여하지 않아, 프롬프트 정보를 충실히 전파하는 데 일반적으로 어텐션만으로도 충분함을 시사합니다. 그러나 우리는 풀링된 임베딩이 다른 관점, 즉 지침으로서 사용되어 더 바람직한 특성으로의 제어 가능한 변화를 가능하게 할 때 상당한 성능 향상을 제공할 수 있음을 밝혔습니다. 이 접근법은 추가 학습이 필요 없으며, 구현이 간단하고, 런타임 오버헤드가 무시할 수 있을 정도로 작으며, 다양한 디퓨전 모델에 적용 가능하여 텍스트-이미지/비디오 생성 및 이미지 편집 등 다양한 작업에서 개선을 가져옵니다.
English
Diffusion transformers typically incorporate textual information via attention layers and a modulation mechanism using a pooled text embedding. Nevertheless, recent approaches discard modulation-based text conditioning and rely exclusively on attention. In this paper, we address whether modulation-based text conditioning is necessary and whether it can provide any performance advantage. Our analysis shows that, in its conventional usage, the pooled embedding contributes little to overall performance, suggesting that attention alone is generally sufficient for faithfully propagating prompt information. However, we reveal that the pooled embedding can provide significant gains when used from a different perspective-serving as guidance and enabling controllable shifts toward more desirable properties. This approach is training-free, simple to implement, incurs negligible runtime overhead, and can be applied to various diffusion models, bringing improvements across diverse tasks, including text-to-image/video generation and image editing.
PDF81February 12, 2026