TAG-MoE: Задача-осознанное управление затворами для унифицированной генеративной смеси экспертов
TAG-MoE: Task-Aware Gating for Unified Generative Mixture-of-Experts
January 12, 2026
Авторы: Yu Xu, Hongbin Yan, Juan Cao, Yiji Cheng, Tiankai Hang, Runze He, Zijin Yin, Shiyi Zhang, Yuxin Zhang, Jintao Li, Chunyu Wang, Qinglin Lu, Tong-Yee Lee, Fan Tang
cs.AI
Аннотация
Унифицированные модели генерации и редактирования изображений страдают от сильной интерференции задач в архитектурах плотных диффузионных трансформаторов, где общее пространство параметров вынуждено искать компромисс между конфликтующими целями (например, локальное редактирование и предметно-ориентированная генерация). Хотя разреженная парадигма смеси экспертов (Mixture-of-Experts, MoE) является перспективным решением, её управляющие сети остаются агностичными к задаче, работая на основе локальных признаков без учёта глобального целеполагания. Эта агностичность препятствует содержательной специализации и не позволяет устранить лежащую в основе интерференцию задач. В данной статье мы предлагаем новую структуру для внедрения семантического замысла в маршрутизацию MoE. Мы представляем схему иерархической семантической аннотации задач для создания структурированных дескрипторов (например, область, тип, сохранение). Затем мы разрабатываем регуляризацию прогностического выравнивания, чтобы согласовать внутренние решения маршрутизации с высокоуровневой семантикой задачи. Данная регуляризация преобразует управляющую сеть из агностичного исполнителя в диспетчерский центр. Наша модель эффективно снижает интерференцию задач, превосходя плотные базовые линии по точности и качеству, а наш анализ показывает, что эксперты естественным образом развивают чёткие и семантически коррелированные специализации.
English
Unified image generation and editing models suffer from severe task interference in dense diffusion transformers architectures, where a shared parameter space must compromise between conflicting objectives (e.g., local editing v.s. subject-driven generation). While the sparse Mixture-of-Experts (MoE) paradigm is a promising solution, its gating networks remain task-agnostic, operating based on local features, unaware of global task intent. This task-agnostic nature prevents meaningful specialization and fails to resolve the underlying task interference. In this paper, we propose a novel framework to inject semantic intent into MoE routing. We introduce a Hierarchical Task Semantic Annotation scheme to create structured task descriptors (e.g., scope, type, preservation). We then design Predictive Alignment Regularization to align internal routing decisions with the task's high-level semantics. This regularization evolves the gating network from a task-agnostic executor to a dispatch center. Our model effectively mitigates task interference, outperforming dense baselines in fidelity and quality, and our analysis shows that experts naturally develop clear and semantically correlated specializations.