ConceptMoE:暗黙的な計算割り当てのための適応的トークン・コンセプト圧縮
ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation
January 29, 2026
著者: Zihao Huang, Jundong Zhou, Xingwei Qu, Qiyang Min, Ge Zhang
cs.AI
要旨
大規模言語モデルは、全てのトークンに均一な計算リソースを割り当てているが、一部の系列は自明に予測可能であるのに対し、他の系列は深い推論を必要とするという事実を見落としている。本論文ではConceptMoEを提案する。これは意味的に類似したトークンを動的に概念表現に統合し、暗黙的なトークンレベルの計算割り当てを実現する。学習可能なチャンクモジュールがトークン間の類似度を測定して最適な境界を特定し、計算集約的な概念モデルに入力される前に系列を目標圧縮率Rで圧縮する。決定的に重要なのは、MoEアーキテクチャが制御された評価を可能にすることである:保存された計算リソースを再割り当てし、ベースラインの活性化FLOPs(注意マップ計算を除く)と総パラメータ数を一致させることで、真のアーキテクチャ上の利点を分離する。これらの条件下で、ConceptMoEは言語タスクと視覚言語タスクの両方において標準MoEを一貫して上回り、言語事前学習で+0.9ポイント、長文理解で+2.3ポイント、マルチモーダルベンチマークで+0.6ポイントを達成した。層ループを用いた継続学習中に事前学習済みMoEを変換する場合、利得は+5.5ポイントに達し、実用性を実証している。性能向上に加え、ConceptMoEは注意計算を最大R^2倍、KVキャッシュをR倍削減する。R=2では、長系列においてプレフィル速度が最大175%、デコード速度が最大117%向上するという実測結果が得られている。最小限のアーキテクチャ変更により既存のMoEへの直接的な統合が可能であり、適応的概念レベル処理が大規模言語モデルの有効性と効率性の両方を根本的に改善することを示している。
English
Large language models allocate uniform computation across all tokens, ignoring that some sequences are trivially predictable while others require deep reasoning. We introduce ConceptMoE, which dynamically merges semantically similar tokens into concept representations, performing implicit token-level compute allocation. A learnable chunk module identifies optimal boundaries by measuring inter-token similarity, compressing sequences by a target ratio R before they enter the compute-intensive concept model. Crucially, the MoE architecture enables controlled evaluation: we reallocate saved computation to match baseline activated FLOPs (excluding attention map computation) and total parameters, isolating genuine architectural benefits. Under these conditions, ConceptMoE consistently outperforms standard MoE across language and vision-language tasks, achieving +0.9 points on language pretraining, +2.3 points on long context understanding, and +0.6 points on multimodal benchmarks. When converting pretrained MoE during continual training with layer looping, gains reach +5.5 points, demonstrating practical applicability. Beyond performance, ConceptMoE reduces attention computation by up to R^2times and KV cache by Rtimes. At R=2, empirical measurements show prefill speedups reaching 175\% and decoding speedups up to 117\% on long sequences. The minimal architectural modifications enable straightforward integration into existing MoE, demonstrating that adaptive concept-level processing fundamentally improves both effectiveness and efficiency of large language models.