TAG-MoE: 統一的生成型Mixture-of-Expertsのためのタスク認識ゲーティング
TAG-MoE: Task-Aware Gating for Unified Generative Mixture-of-Experts
January 12, 2026
著者: Yu Xu, Hongbin Yan, Juan Cao, Yiji Cheng, Tiankai Hang, Runze He, Zijin Yin, Shiyi Zhang, Yuxin Zhang, Jintao Li, Chunyu Wang, Qinglin Lu, Tong-Yee Lee, Fan Tang
cs.AI
要旨
統一的画像生成・編集モデルは、高密度Diffusion Transformerアーキテクチャにおいて深刻なタスク干渉に悩まされている。共有されたパラメータ空間は、相反する目的(例:局所的編集と被写体駆動生成)の間で妥協を強いられるためである。疎なMixture-of-Experts(MoE)パラダイムは有望な解決策であるが、そのゲーティングネットワークは依然としてタスク非依存であり、局所的特徴に基づいて動作するため、グローバルなタスク意図を認識しない。このタスク非依存の性質は、意味のある専門化を妨げ、根本的なタスク干渉の解決に失敗する。本論文では、MoEのルーティングに意味的意図を組み込む新しいフレームワークを提案する。まず、構造化されたタスク記述子(例:範囲、種類、保存性)を作成するための階層的タスク意味注釈スキームを導入する。次に、内部ルーティング決定とタスクの高水準意味を整合させるための予測的整合性正則化を設計する。この正則化により、ゲーティングネットワークはタスク非依存の実行主体から、ディスパッチセンターへと進化する。提案モデルはタスク干渉を効果的に緩和し、忠実度と品質において高密度ベースラインを上回る。また分析により、エキスパートが自然に明確かつ意味的に関連した専門性を発達させることを示す。
English
Unified image generation and editing models suffer from severe task interference in dense diffusion transformers architectures, where a shared parameter space must compromise between conflicting objectives (e.g., local editing v.s. subject-driven generation). While the sparse Mixture-of-Experts (MoE) paradigm is a promising solution, its gating networks remain task-agnostic, operating based on local features, unaware of global task intent. This task-agnostic nature prevents meaningful specialization and fails to resolve the underlying task interference. In this paper, we propose a novel framework to inject semantic intent into MoE routing. We introduce a Hierarchical Task Semantic Annotation scheme to create structured task descriptors (e.g., scope, type, preservation). We then design Predictive Alignment Regularization to align internal routing decisions with the task's high-level semantics. This regularization evolves the gating network from a task-agnostic executor to a dispatch center. Our model effectively mitigates task interference, outperforming dense baselines in fidelity and quality, and our analysis shows that experts naturally develop clear and semantically correlated specializations.