Roteamento Semântico: Explorando a Ponderação de Características de LLM em Múltiplas Camadas para Transformadores de Difusão

Resumo

Os modelos recentes de geração de texto para imagem baseados em DiT (Diffusion Transformer) adotam cada vez mais LLMs como codificadores de texto. No entanto, a condicionamento por texto permanece amplamente estático e frequentemente utiliza apenas uma única camada do LLM, apesar da pronunciada hierarquia semântica entre as camadas do LLM e da dinâmica de remoção de ruído não estacionária ao longo do tempo de difusão e da profundidade da rede. Para corresponder melhor ao processo dinâmico da geração DiT e, assim, melhorar a capacidade generativa do modelo de difusão, introduzimos uma estrutura unificada de fusão convexa normalizada equipada com portas (*gates*) leves para organizar sistematicamente os estados ocultos multi-camada do LLM por meio de fusão temporal, por profundidade e conjunta. Os experimentos estabelecem o Roteamento Semântico por Profundidade como a estratégia de condicionamento superior, melhorando consistentemente o alinhamento texto-imagem e a geração composicional (por exemplo, +9,97 na tarefa de Contagem do GenAI-Bench). Por outro lado, descobrimos que a fusão puramente temporal pode, paradoxalmente, degradar a fidelidade da geração visual. Atribuímos isso a um descompasso entre as trajetórias de treinamento e inferência: sob a orientação *classifier-free*, os intervalos de tempo nominais não conseguem rastrear a SNR (Relação Sinal-Ruído) efetiva, causando uma injeção de características semanticamente dessincronizada durante a inferência. No geral, nossos resultados posicionam o roteamento por profundidade como uma linha de base forte e eficaz e destacam a necessidade crítica de sinais conscientes da trajetória para permitir um condicionamento dependente do tempo robusto.

English

Recent DiT-based text-to-image models increasingly adopt LLMs as text encoders, yet text conditioning remains largely static and often utilizes only a single LLM layer, despite pronounced semantic hierarchy across LLM layers and non-stationary denoising dynamics over both diffusion time and network depth. To better match the dynamic process of DiT generation and thereby enhance the diffusion model's generative capability, we introduce a unified normalized convex fusion framework equipped with lightweight gates to systematically organize multi-layer LLM hidden states via time-wise, depth-wise, and joint fusion. Experiments establish Depth-wise Semantic Routing as the superior conditioning strategy, consistently improving text-image alignment and compositional generation (e.g., +9.97 on the GenAI-Bench Counting task). Conversely, we find that purely time-wise fusion can paradoxically degrade visual generation fidelity. We attribute this to a train-inference trajectory mismatch: under classifier-free guidance, nominal timesteps fail to track the effective SNR, causing semantically mistimed feature injection during inference. Overall, our results position depth-wise routing as a strong and effective baseline and highlight the critical need for trajectory-aware signals to enable robust time-dependent conditioning.