ChatPaper.aiChatPaper

Семантическая маршрутизация: исследование взвешивания признаков в многослойных языковых моделях для диффузионных трансформеров

Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers

February 3, 2026
Авторы: Bozhou Li, Yushuo Guan, Haolin Li, Bohan Zeng, Yiyan Ji, Yue Ding, Pengfei Wan, Kun Gai, Yuanxing Zhang, Wentao Zhang
cs.AI

Аннотация

Современные DiT-модели генерации изображений по тексту всё чаще используют большие языковые модели (LLM) в качестве текстовых энкодеров, однако текстовое кондиционирование остаётся в основном статичным и часто задействует лишь один слой LLM, несмотря на выраженную семантическую иерархию между слоями LLM и нестационарную динамику денойзинга как во времени диффузии, так и по глубине сети. Чтобы лучше согласовать кондиционирование с динамическим процессом генерации в DiT и тем самым повысить генеративную способность диффузионной модели, мы предлагаем унифицированную нормализованную схему выпуклого слияния, оснащённую лёгкими механизмами внимания (gates), для систематической организации скрытых состояний многослойной LLM посредством временного, глубинного и совместного слияния. Эксперименты показывают, что семантическая маршрутизация по глубине (Depth-wise Semantic Routing) является наилучшей стратегией кондиционирования, последовательно улучшая соответствие текста и изображения и композиционную генерацию (например, +9.97 на задаче Counting в GenAI-Bench). Напротив, мы обнаружили, что чисто временное слияние может парадоксальным образом ухудшить качество визуальной генерации. Мы объясняем это несоответствием траекторий обучения и вывода: при использовании классификатор-фри guidance номинальные временные шаги не отслеживают эффективное отношение сигнал-шум (SNR), что приводит к семантически несвоевременной инъекции признаков на этапе вывода. В целом, наши результаты позиционируют глубинную маршрутизацию как сильный и эффективный базовый подход и подчёркивают критическую важность траекторно-aware сигналов для обеспечения надёжного временно-зависимого кондиционирования.
English
Recent DiT-based text-to-image models increasingly adopt LLMs as text encoders, yet text conditioning remains largely static and often utilizes only a single LLM layer, despite pronounced semantic hierarchy across LLM layers and non-stationary denoising dynamics over both diffusion time and network depth. To better match the dynamic process of DiT generation and thereby enhance the diffusion model's generative capability, we introduce a unified normalized convex fusion framework equipped with lightweight gates to systematically organize multi-layer LLM hidden states via time-wise, depth-wise, and joint fusion. Experiments establish Depth-wise Semantic Routing as the superior conditioning strategy, consistently improving text-image alignment and compositional generation (e.g., +9.97 on the GenAI-Bench Counting task). Conversely, we find that purely time-wise fusion can paradoxically degrade visual generation fidelity. We attribute this to a train-inference trajectory mismatch: under classifier-free guidance, nominal timesteps fail to track the effective SNR, causing semantically mistimed feature injection during inference. Overall, our results position depth-wise routing as a strong and effective baseline and highlight the critical need for trajectory-aware signals to enable robust time-dependent conditioning.
PDF231February 6, 2026