ChatPaper.aiChatPaper

Routing Semantico: Esplorazione della Pesatura delle Caratteristiche Multi-Livello negli LLM per i Diffusion Transformer

Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers

February 3, 2026
Autori: Bozhou Li, Yushuo Guan, Haolin Li, Bohan Zeng, Yiyan Ji, Yue Ding, Pengfei Wan, Kun Gai, Yuanxing Zhang, Wentao Zhang
cs.AI

Abstract

I recenti modelli text-to-image basati su DiT adottano sempre più spesso LLM come encoder di testo, tuttavia il condizionamento testuale rimane largamente statico e spesso utilizza solo un singolo strato LLM, nonostante la pronunciata gerarchia semantica attraverso gli strati LLM e le dinamiche di denoising non stazionarie sia sul tempo di diffusione che sulla profondità della rete. Per adattarci meglio al processo dinamico della generazione DiT e quindi potenziare la capacità generativa del modello di diffusione, introduciamo un framework unificato di fusione convessa normalizzato, dotato di gate leggeri, per organizzare sistematicamente gli stati nascosti multistrato degli LLM tramite fusioni time-wise, depth-wise e congiunta. Gli esperimenti stabiliscono il Depth-wise Semantic Routing come la strategia di condizionamento superiore, che migliora costantemente l'allineamento testo-immagine e la generazione compositiva (ad esempio, +9.97 sul task Counting di GenAI-Bench). Al contrario, scopriamo che una fusione puramente time-wise può paradossalmente degradare la fedeltà della generazione visiva. Attribuiamo ciò a un disallineamento tra traiettoria di addestramento e inferenza: sotto la guida classifier-free, i timestep nominali non riescono a tracciare l'SNR effettivo, causando un'iniezione di feature semanticamente fuori tempo durante l'inferenza. Nel complesso, i nostri risultati posizionano il routing depth-wise come una baseline solida ed efficace e evidenziano la necessità critica di segnali trajectory-aware per abilitare un condizionamento time-dependent robusto.
English
Recent DiT-based text-to-image models increasingly adopt LLMs as text encoders, yet text conditioning remains largely static and often utilizes only a single LLM layer, despite pronounced semantic hierarchy across LLM layers and non-stationary denoising dynamics over both diffusion time and network depth. To better match the dynamic process of DiT generation and thereby enhance the diffusion model's generative capability, we introduce a unified normalized convex fusion framework equipped with lightweight gates to systematically organize multi-layer LLM hidden states via time-wise, depth-wise, and joint fusion. Experiments establish Depth-wise Semantic Routing as the superior conditioning strategy, consistently improving text-image alignment and compositional generation (e.g., +9.97 on the GenAI-Bench Counting task). Conversely, we find that purely time-wise fusion can paradoxically degrade visual generation fidelity. We attribute this to a train-inference trajectory mismatch: under classifier-free guidance, nominal timesteps fail to track the effective SNR, causing semantically mistimed feature injection during inference. Overall, our results position depth-wise routing as a strong and effective baseline and highlight the critical need for trajectory-aware signals to enable robust time-dependent conditioning.
PDF231February 6, 2026