Semantisch Routeren: Verkenning van Multi-Layer LLM-Functieweging voor Diffusie-Transformers
Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers
February 3, 2026
Auteurs: Bozhou Li, Yushuo Guan, Haolin Li, Bohan Zeng, Yiyan Ji, Yue Ding, Pengfei Wan, Kun Gai, Yuanxing Zhang, Wentao Zhang
cs.AI
Samenvatting
Recente DiT-gebaseerde tekst-naar-beeldmodellen nemen in toenemende mate LLM's als tekstencoders aan, toch blijft tekstconditionering grotendeels statisch en wordt vaak slechts één enkele LLM-laag gebruikt, ondanks een uitgesproken semantische hiërarchie over de LLM-lagen heen en niet-stationaire denoiseringsdynamiek over zowel diffusietijd als netwerkdiepte. Om het dynamische proces van DiT-generatie beter te matchen en daarmee het generatieve vermogen van het diffusiemodel te verbeteren, introduceren we een uniform genormaliseerd convex fusieraamwerk voorzien van lichtgewicht gates om multimodale LLM-verborgen toestanden systematisch te organiseren via tijdgebonden, dieptegbonden en gezamenlijke fusie. Experimenten vestigen Depth-wise Semantic Routing als de superieure conditioneringsstrategie, die consistent tekst-beelduitlijning en compositionele generatie verbetert (bijv. +9,97 op de GenAI-Bench Teltaak). Omgekeerd constateren we dat puur tijdgebonden fusie paradoxaal genoeg de visuele generatiefideliteit kan aantasten. Wij schrijven dit toe aan een train-inferentie trajectmismatch: onder classifier-free guidance volgen nominale tijdstappen de effectieve SNR niet, wat leidt tot semantisch mistiming van feature-injectie tijdens inferentie. Over het geheel genomen positioneren onze resultaten dieptegbonden routing als een sterke en effectieve baseline en benadrukken ze de kritieke noodzaak van trajectbewuste signalen om robuuste tijdafhankelijke conditionering mogelijk te maken.
English
Recent DiT-based text-to-image models increasingly adopt LLMs as text encoders, yet text conditioning remains largely static and often utilizes only a single LLM layer, despite pronounced semantic hierarchy across LLM layers and non-stationary denoising dynamics over both diffusion time and network depth. To better match the dynamic process of DiT generation and thereby enhance the diffusion model's generative capability, we introduce a unified normalized convex fusion framework equipped with lightweight gates to systematically organize multi-layer LLM hidden states via time-wise, depth-wise, and joint fusion. Experiments establish Depth-wise Semantic Routing as the superior conditioning strategy, consistently improving text-image alignment and compositional generation (e.g., +9.97 on the GenAI-Bench Counting task). Conversely, we find that purely time-wise fusion can paradoxically degrade visual generation fidelity. We attribute this to a train-inference trajectory mismatch: under classifier-free guidance, nominal timesteps fail to track the effective SNR, causing semantically mistimed feature injection during inference. Overall, our results position depth-wise routing as a strong and effective baseline and highlight the critical need for trajectory-aware signals to enable robust time-dependent conditioning.