ChatPaper.aiChatPaper

의미론적 라우팅: 확산 트랜스포머를 위한 다중 계층 LLM 특징 가중치 기법 탐구

Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers

February 3, 2026
저자: Bozhou Li, Yushuo Guan, Haolin Li, Bohan Zeng, Yiyan Ji, Yue Ding, Pengfei Wan, Kun Gai, Yuanxing Zhang, Wentao Zhang
cs.AI

초록

최근 DiT 기반 텍스트-이미지 변환 모델들은 LLM을 텍스트 인코더로 채택하는 추세이지만, LLM 계층 간의 뚜렷한 의미론적 위계와 확산 시간 및 네트워크 깊이에 따른 비정적 노이즈 제거 역동성에도 불구하고, 텍스트 조건화는 대체로 정적이며 단일 LLM 계층만 활용되는 경우가 많습니다. DiT 생성의 동적 과정을 더 잘 맞추어 확산 모델의 생성 능력을 향상시키기 위해, 우리는 경량화된 게이트를 장착한 통합 정규화 볼록 융합 프레임워크를 도입하여 시간별, 깊이별, 그리고 통합적 융합을 통해 다중 계층 LLM 은닉 상태를 체계적으로 구성합니다. 실험 결과 깊이별 의미론적 라우팅이 가장 우수한 조건화 전략으로 확인되었으며, 텍스트-이미지 정렬 및 구성적 생성 능력을 지속적으로 향상시켰습니다(예: GenAI-Bench Counting 작업에서 +9.97). 반대로, 순수한 시간별 융합은 오히려 시각적 생성 충실도를 저하시킬 수 있음을 발견했습니다. 우리는 이를 훈련-추론 궤적 불일치로 귀인합니다. 즉, 분류자 없는 guidance 하에서 명목상의 시간 단계는 효과적인 SNR을 추적하지 못하여 추론 중 의미론적으로 시점이 어긋난 특징 주입을 초래하기 때문입니다. 전반적으로, 우리의 결과는 깊이별 라우팅을 강력하고 효과적인 기준선으로 자리매김하며, 강건한 시간 의존적 조건화를 가능하게 하기 위해 궤적 인식 신호의 중요성을 강조합니다.
English
Recent DiT-based text-to-image models increasingly adopt LLMs as text encoders, yet text conditioning remains largely static and often utilizes only a single LLM layer, despite pronounced semantic hierarchy across LLM layers and non-stationary denoising dynamics over both diffusion time and network depth. To better match the dynamic process of DiT generation and thereby enhance the diffusion model's generative capability, we introduce a unified normalized convex fusion framework equipped with lightweight gates to systematically organize multi-layer LLM hidden states via time-wise, depth-wise, and joint fusion. Experiments establish Depth-wise Semantic Routing as the superior conditioning strategy, consistently improving text-image alignment and compositional generation (e.g., +9.97 on the GenAI-Bench Counting task). Conversely, we find that purely time-wise fusion can paradoxically degrade visual generation fidelity. We attribute this to a train-inference trajectory mismatch: under classifier-free guidance, nominal timesteps fail to track the effective SNR, causing semantically mistimed feature injection during inference. Overall, our results position depth-wise routing as a strong and effective baseline and highlight the critical need for trajectory-aware signals to enable robust time-dependent conditioning.
PDF231February 6, 2026