ChatPaper.aiChatPaper

TAG-MoE: Задача-осознанное управление затворами для унифицированной генеративной смеси экспертов

TAG-MoE: Task-Aware Gating for Unified Generative Mixture-of-Experts

January 12, 2026
Авторы: Yu Xu, Hongbin Yan, Juan Cao, Yiji Cheng, Tiankai Hang, Runze He, Zijin Yin, Shiyi Zhang, Yuxin Zhang, Jintao Li, Chunyu Wang, Qinglin Lu, Tong-Yee Lee, Fan Tang
cs.AI

Аннотация

Унифицированные модели генерации и редактирования изображений страдают от сильной интерференции задач в архитектурах плотных диффузионных трансформаторов, где общее пространство параметров вынуждено искать компромисс между конфликтующими целями (например, локальное редактирование и предметно-ориентированная генерация). Хотя разреженная парадигма смеси экспертов (Mixture-of-Experts, MoE) является перспективным решением, её управляющие сети остаются агностичными к задаче, работая на основе локальных признаков без учёта глобального целеполагания. Эта агностичность препятствует содержательной специализации и не позволяет устранить лежащую в основе интерференцию задач. В данной статье мы предлагаем новую структуру для внедрения семантического замысла в маршрутизацию MoE. Мы представляем схему иерархической семантической аннотации задач для создания структурированных дескрипторов (например, область, тип, сохранение). Затем мы разрабатываем регуляризацию прогностического выравнивания, чтобы согласовать внутренние решения маршрутизации с высокоуровневой семантикой задачи. Данная регуляризация преобразует управляющую сеть из агностичного исполнителя в диспетчерский центр. Наша модель эффективно снижает интерференцию задач, превосходя плотные базовые линии по точности и качеству, а наш анализ показывает, что эксперты естественным образом развивают чёткие и семантически коррелированные специализации.
English
Unified image generation and editing models suffer from severe task interference in dense diffusion transformers architectures, where a shared parameter space must compromise between conflicting objectives (e.g., local editing v.s. subject-driven generation). While the sparse Mixture-of-Experts (MoE) paradigm is a promising solution, its gating networks remain task-agnostic, operating based on local features, unaware of global task intent. This task-agnostic nature prevents meaningful specialization and fails to resolve the underlying task interference. In this paper, we propose a novel framework to inject semantic intent into MoE routing. We introduce a Hierarchical Task Semantic Annotation scheme to create structured task descriptors (e.g., scope, type, preservation). We then design Predictive Alignment Regularization to align internal routing decisions with the task's high-level semantics. This regularization evolves the gating network from a task-agnostic executor to a dispatch center. Our model effectively mitigates task interference, outperforming dense baselines in fidelity and quality, and our analysis shows that experts naturally develop clear and semantically correlated specializations.
PDF61January 17, 2026