ChatPaper.aiChatPaper

Semantisches Routing: Untersuchung der Multi-Layer-Feature-Gewichtung von LLM für Diffusion-Transformatoren

Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers

February 3, 2026
papers.authors: Bozhou Li, Yushuo Guan, Haolin Li, Bohan Zeng, Yiyan Ji, Yue Ding, Pengfei Wan, Kun Gai, Yuanxing Zhang, Wentao Zhang
cs.AI

papers.abstract

Aktuelle DiT-basierte Text-zu-Bild-Modelle setzen zunehmend auf LLMs als Textencoder. Dennoch bleibt die Textkonditionierung weitgehend statisch und nutzt oft nur eine einzige LLM-Schicht, obwohl eine ausgeprägte semantische Hierarchie über die LLM-Schichten hinweg und nicht-stationäre Denoising-Dynamiken sowohl über die Diffusionszeit als auch die Netzwerktiefe bestehen. Um den dynamischen Prozess der DiT-Generierung besser abzubilden und dadurch die generative Fähigkeit des Diffusionsmodells zu verbessern, führen wir einen einheitlichen Framework der normalisierten konvexen Fusion ein, der mit leichtgewichtigen Gating-Mechanismen ausgestattet ist, um mehrschichtige LLM-Hidden-States systematisch mittels zeitweiser, tiefenweiser und gemeinsamer Fusion zu organisieren. Experimente zeigen, dass sich die tiefenweise semantische Routing-Strategie als überlegene Konditionierungsmethode etabliert, die konsistent die Text-Bild-Abstimmung und die kompositionelle Generierung verbessert (z.B. +9,97 Punkte bei der GenAI-Bench Counting-Aufgabe). Im Gegensatz dazu stellen wir fest, dass eine rein zeitweise Fusion paradoxerweise die visuelle Generierungsqualität verschlechtern kann. Wir führen dies auf eine Trainings-Inferenz-Pfadinkongruenz zurück: Unter Classifier-Free Guidance bilden nominale Zeitschritte den effektiven SNR nicht korrekt ab, was zu semantisch fehlgetakteter Feature-Injektion während der Inferenz führt. Insgesamt positionieren unsere Ergebnisse das tiefenweise Routing als eine starke und effektive Baseline und unterstreichen die kritische Notwendigkeit von pfadbewussten Signalen, um eine robuste zeitabhängige Konditionierung zu ermöglichen.
English
Recent DiT-based text-to-image models increasingly adopt LLMs as text encoders, yet text conditioning remains largely static and often utilizes only a single LLM layer, despite pronounced semantic hierarchy across LLM layers and non-stationary denoising dynamics over both diffusion time and network depth. To better match the dynamic process of DiT generation and thereby enhance the diffusion model's generative capability, we introduce a unified normalized convex fusion framework equipped with lightweight gates to systematically organize multi-layer LLM hidden states via time-wise, depth-wise, and joint fusion. Experiments establish Depth-wise Semantic Routing as the superior conditioning strategy, consistently improving text-image alignment and compositional generation (e.g., +9.97 on the GenAI-Bench Counting task). Conversely, we find that purely time-wise fusion can paradoxically degrade visual generation fidelity. We attribute this to a train-inference trajectory mismatch: under classifier-free guidance, nominal timesteps fail to track the effective SNR, causing semantically mistimed feature injection during inference. Overall, our results position depth-wise routing as a strong and effective baseline and highlight the critical need for trajectory-aware signals to enable robust time-dependent conditioning.
PDF231February 6, 2026