ChatPaper.aiChatPaper

Enrutamiento Semántico: Exploración de la Ponderación de Características Multi-Capa en LLM para Transformadores de Difusión

Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers

February 3, 2026
Autores: Bozhou Li, Yushuo Guan, Haolin Li, Bohan Zeng, Yiyan Ji, Yue Ding, Pengfei Wan, Kun Gai, Yuanxing Zhang, Wentao Zhang
cs.AI

Resumen

Los modelos recientes de texto a imagen basados en DiT adoptan cada vez más LLMs como codificadores de texto; sin embargo, el condicionamiento textual sigue siendo en gran medida estático y a menudo utiliza solo una única capa del LLM, a pesar de la pronunciada jerarquía semántica entre las capas del LLM y la dinámica no estacionaria de eliminación de ruido a lo largo del tiempo de difusión y la profundidad de la red. Para igualar mejor el proceso dinámico de la generación con DiT y, por lo tanto, mejorar la capacidad generativa del modelo de difusión, introducimos un marco unificado de fusión convexa normalizada equipado con compuertas ligeras para organizar sistemáticamente los estados ocultos multi-capa del LLM mediante fusión temporal, por profundidad y conjunta. Los experimentos establecen el Enrutamiento Semántico por Profundidad como la estrategia de condicionamiento superior, mejorando consistentemente la alineación texto-imagen y la generación compositiva (por ejemplo, +9.97 en la tarea de Conteo de GenAI-Bench). Por el contrario, encontramos que la fusión puramente temporal puede degradar paradójicamente la fidelidad de la generación visual. Atribuimos esto a un desajuste en la trayectoria entrenamiento-inferencia: bajo la guía libre de clasificador, los pasos de tiempo nominales no logran rastrear la SNR efectiva, causando una inyección de características semánticamente desincronizada durante la inferencia. En general, nuestros resultados posicionan el enrutamiento por profundidad como una línea base sólida y efectiva, y destacan la necesidad crítica de señales conscientes de la trayectoria para permitir un condicionamiento dependiente del tiempo robusto.
English
Recent DiT-based text-to-image models increasingly adopt LLMs as text encoders, yet text conditioning remains largely static and often utilizes only a single LLM layer, despite pronounced semantic hierarchy across LLM layers and non-stationary denoising dynamics over both diffusion time and network depth. To better match the dynamic process of DiT generation and thereby enhance the diffusion model's generative capability, we introduce a unified normalized convex fusion framework equipped with lightweight gates to systematically organize multi-layer LLM hidden states via time-wise, depth-wise, and joint fusion. Experiments establish Depth-wise Semantic Routing as the superior conditioning strategy, consistently improving text-image alignment and compositional generation (e.g., +9.97 on the GenAI-Bench Counting task). Conversely, we find that purely time-wise fusion can paradoxically degrade visual generation fidelity. We attribute this to a train-inference trajectory mismatch: under classifier-free guidance, nominal timesteps fail to track the effective SNR, causing semantically mistimed feature injection during inference. Overall, our results position depth-wise routing as a strong and effective baseline and highlight the critical need for trajectory-aware signals to enable robust time-dependent conditioning.
PDF231February 6, 2026