ConceptMoE : Compression adaptative token-à-concept pour l'allocation implicite de calcul

papers.abstract

Les grands modèles de langage allouent uniformément les calculs sur tous les tokens, ignorant que certaines séquences sont trivialement prévisibles tandis que d'autres nécessitent un raisonnement profond. Nous présentons ConceptMoE, qui fusionne dynamiquement les tokens sémantiquement similaires en représentations conceptuelles, réalisant ainsi une allocation implicite des calculs au niveau token. Un module d'agrégation apprenable identifie les frontières optimales en mesurant la similarité inter-token, compressant les séquences par un ratio cible R avant qu'elles n'entrent dans le modèle conceptuel intensif en calculs. Crucialement, l'architecture MoE permet une évaluation contrôlée : nous réallouons les calculs économisés pour égaler les FLOPs activés de référence (excluant le calcul des matrices d'attention) et le nombre total de paramètres, isolant ainsi les bénéfices architecturaux réels. Dans ces conditions, ConceptMoE surpasse systématiquement le MoE standard sur des tâches linguistiques et vision-langage, obtenant +0,9 point en pré-entraînement linguistique, +2,3 points en compréhension de contexte long et +0,6 point sur les benchmarks multimodaux. Lors de la conversion d'un MoE pré-entrainé pendant un entraînement continu avec recyclage de couches, les gains atteignent +5,5 points, démontrant l'applicabilité pratique. Au-delà des performances, ConceptMoE réduit le calcul d'attention jusqu'à R² fois et le cache KV de R fois. Avec R=2, des mesures empiriques montrent des accélérations en pré-remplissage atteignant 175 % et des accélérations en décodage jusqu'à 117 % sur les longues séquences. Les modifications architecturales minimales permettent une intégration aisée dans les MoE existants, démontrant que le traitement adaptatif au niveau conceptuel améliore fondamentalement à la fois l'efficacité et l'efficience des grands modèles de langage.

English

Large language models allocate uniform computation across all tokens, ignoring that some sequences are trivially predictable while others require deep reasoning. We introduce ConceptMoE, which dynamically merges semantically similar tokens into concept representations, performing implicit token-level compute allocation. A learnable chunk module identifies optimal boundaries by measuring inter-token similarity, compressing sequences by a target ratio R before they enter the compute-intensive concept model. Crucially, the MoE architecture enables controlled evaluation: we reallocate saved computation to match baseline activated FLOPs (excluding attention map computation) and total parameters, isolating genuine architectural benefits. Under these conditions, ConceptMoE consistently outperforms standard MoE across language and vision-language tasks, achieving +0.9 points on language pretraining, +2.3 points on long context understanding, and +0.6 points on multimodal benchmarks. When converting pretrained MoE during continual training with layer looping, gains reach +5.5 points, demonstrating practical applicability. Beyond performance, ConceptMoE reduces attention computation by up to R^2times and KV cache by Rtimes. At R=2, empirical measurements show prefill speedups reaching 175\% and decoding speedups up to 117\% on long sequences. The minimal architectural modifications enable straightforward integration into existing MoE, demonstrating that adaptive concept-level processing fundamentally improves both effectiveness and efficiency of large language models.

ConceptMoE : Compression adaptative token-à-concept pour l'allocation implicite de calcul

ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation

papers.abstract

Support