TAG-MoE: 통합 생성형 전문가 혼합 모델을 위한 과제 인식 게이팅
TAG-MoE: Task-Aware Gating for Unified Generative Mixture-of-Experts
January 12, 2026
저자: Yu Xu, Hongbin Yan, Juan Cao, Yiji Cheng, Tiankai Hang, Runze He, Zijin Yin, Shiyi Zhang, Yuxin Zhang, Jintao Li, Chunyu Wang, Qinglin Lu, Tong-Yee Lee, Fan Tang
cs.AI
초록
통합 이미지 생성 및 편집 모델은 밀집 디퓨전 트랜스포머 아키텍처에서 심각한 작업 간섭 문제를 겪습니다. 공유 매개변수 공간이 상충되는 목표(예: 지역 편집 대 주체 기반 생성) 사이에서 타협해야 하기 때문입니다. 희소 Mixture-of-Experts(MoE) 패러다임은 유망한 해결책이지만, 해당 게이팅 네트워크는 여전히 작업에 무관심하며 지역 특징에 기반하여 작동하여 전역 작업 의도를 인식하지 못합니다. 이렇게 작업에 무관심한 특성은 의미 있는 전문성 발달을 방해하고 근본적인 작업 간섭을 해결하지 못합니다. 본 논문에서는 MoE 라우팅에 의미론적 의도를 주입하는 새로운 프레임워크를 제안합니다. 계층적 작업 의미 주석 방식을 도입하여 구조화된 작업 설명자(예: 범위, 유형, 보존)를 생성합니다. 그런 다음 예측 정렬 정규화를 설계하여 내부 라우팅 결정을 작업의 높은 수준의 의미론과 일치시킵니다. 이 정규화는 게이팅 네트워크를 작업 무관심 실행자에서 디스패치 센터로 발전시킵니다. 우리 모델은 작업 간섭을 효과적으로 완화하며, 정확도와 품질에서 밀집 베이스라인을 능가합니다. 또한 분석 결과, 전문가들이 자연스럽게 명확하고 의미론적으로 연관된 전문성을 개발하는 것을 확인할 수 있었습니다.
English
Unified image generation and editing models suffer from severe task interference in dense diffusion transformers architectures, where a shared parameter space must compromise between conflicting objectives (e.g., local editing v.s. subject-driven generation). While the sparse Mixture-of-Experts (MoE) paradigm is a promising solution, its gating networks remain task-agnostic, operating based on local features, unaware of global task intent. This task-agnostic nature prevents meaningful specialization and fails to resolve the underlying task interference. In this paper, we propose a novel framework to inject semantic intent into MoE routing. We introduce a Hierarchical Task Semantic Annotation scheme to create structured task descriptors (e.g., scope, type, preservation). We then design Predictive Alignment Regularization to align internal routing decisions with the task's high-level semantics. This regularization evolves the gating network from a task-agnostic executor to a dispatch center. Our model effectively mitigates task interference, outperforming dense baselines in fidelity and quality, and our analysis shows that experts naturally develop clear and semantically correlated specializations.