Routage Sémantique : Exploration de la Pondération des Caractéristiques Multi-Couches dans les LLM pour les Transformers de Diffusion
Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers
February 3, 2026
papers.authors: Bozhou Li, Yushuo Guan, Haolin Li, Bohan Zeng, Yiyan Ji, Yue Ding, Pengfei Wan, Kun Gai, Yuanxing Zhang, Wentao Zhang
cs.AI
papers.abstract
Les modèles récents de génération d'images par texte basés sur DiT adoptent de plus en plus des LLM comme encodeurs de texte, pourtant le conditionnement textuel reste largement statique et utilise souvent une seule couche de LLM, malgré une hiérarchie sémantique prononcée entre les couches du LLM et des dynamiques de bruitage non stationnaires à la fois dans le temps de diffusion et la profondeur du réseau. Pour mieux correspondre au processus dynamique de la génération DiT et ainsi améliorer la capacité générative du modèle de diffusion, nous introduisons un cadre unifié de fusion convexe normalisée équipé de portes légères pour organiser systématiquement les états cachés multi-couches du LLM via une fusion temporelle, en profondeur et conjointe. Les expériences établissent le Routage Sémantique en Profondeur comme la stratégie de conditionnement supérieure, améliorant constamment l'alignement texte-image et la génération compositionnelle (par exemple, +9.97 sur la tâche de décompte GenAI-Bench). À l'inverse, nous constatons qu'une fusion purement temporelle peut paradoxalement dégrader la fidélité de la génération visuelle. Nous attribuons cela à un décalage trajectoire d'entraînement-inférence : sous le guidage sans classifieur, les pas de temps nominaux ne parviennent pas à suivre le SNR effectif, provoquant une injection de caractéristiques à un moment sémantiquement inadéquat lors de l'inférence. Globalement, nos résultats positionnent le routage en profondeur comme une base de référence solide et efficace et soulignent le besoin crucial de signaux conscients de la trajectoire pour permettre un conditionnement temporel robuste.
English
Recent DiT-based text-to-image models increasingly adopt LLMs as text encoders, yet text conditioning remains largely static and often utilizes only a single LLM layer, despite pronounced semantic hierarchy across LLM layers and non-stationary denoising dynamics over both diffusion time and network depth. To better match the dynamic process of DiT generation and thereby enhance the diffusion model's generative capability, we introduce a unified normalized convex fusion framework equipped with lightweight gates to systematically organize multi-layer LLM hidden states via time-wise, depth-wise, and joint fusion. Experiments establish Depth-wise Semantic Routing as the superior conditioning strategy, consistently improving text-image alignment and compositional generation (e.g., +9.97 on the GenAI-Bench Counting task). Conversely, we find that purely time-wise fusion can paradoxically degrade visual generation fidelity. We attribute this to a train-inference trajectory mismatch: under classifier-free guidance, nominal timesteps fail to track the effective SNR, causing semantically mistimed feature injection during inference. Overall, our results position depth-wise routing as a strong and effective baseline and highlight the critical need for trajectory-aware signals to enable robust time-dependent conditioning.