ConceptMoE: Compressione Adattiva da Token a Concetto per l'Allocazione Implicita del Calcolo

Abstract

I grandi modelli linguistici allocano un calcolo uniforme su tutti i token, ignorando il fatto che alcune sequenze sono banalmente prevedibili mentre altre richiedono un ragionamento profondo. Introduciamo ConceptMoE, che fonde dinamicamente token semanticamente simili in rappresentazioni concettuali, eseguendo un'allocazione implicita del calcolo a livello di token. Un modulo apprendibile di segmentazione identifica i confini ottimali misurando la similarità inter-token, comprimendo le sequenze di un rapporto target R prima che entrino nel modello concettuale ad alta intensità computazionale. Fondamentalmente, l'architettura MoE consente una valutazione controllata: riallociamo il calcolo risparmiato per eguagliare i FLOP attivati del baseline (escludendo il calcolo della mappa di attenzione) e il numero totale di parametri, isolando i genuini benefici architetturali. In queste condizioni, ConceptMoE supera costantemente il MoE standard in compiti linguistici e visione-linguaggio, raggiungendo +0,9 punti nel pre-addestramento linguistico, +2,3 punti nella comprensione di contesti lunghi e +0,6 punti nei benchmark multimodali. Quando si converte un MoE pre-addestrato durante l'addestramento continuo con loop di layer, i guadagni raggiungono +5,5 punti, dimostrando l'applicabilità pratica. Oltre alle prestazioni, ConceptMoE riduce il calcolo dell'attenzione fino a R^2 volte e la KV cache di R volte. Con R=2, misurazioni empiriche mostrano accelerazioni nella fase di prefill fino al 175% e accelerazioni nel decoding fino al 117% su sequenze lunghe. Le minime modifiche architetturali consentono un'integrazione immediata nei MoE esistenti, dimostrando che l'elaborazione adattiva a livello concettuale migliora fondamentalmente sia l'efficacia che l'efficienza dei grandi modelli linguistici.

English

Large language models allocate uniform computation across all tokens, ignoring that some sequences are trivially predictable while others require deep reasoning. We introduce ConceptMoE, which dynamically merges semantically similar tokens into concept representations, performing implicit token-level compute allocation. A learnable chunk module identifies optimal boundaries by measuring inter-token similarity, compressing sequences by a target ratio R before they enter the compute-intensive concept model. Crucially, the MoE architecture enables controlled evaluation: we reallocate saved computation to match baseline activated FLOPs (excluding attention map computation) and total parameters, isolating genuine architectural benefits. Under these conditions, ConceptMoE consistently outperforms standard MoE across language and vision-language tasks, achieving +0.9 points on language pretraining, +2.3 points on long context understanding, and +0.6 points on multimodal benchmarks. When converting pretrained MoE during continual training with layer looping, gains reach +5.5 points, demonstrating practical applicability. Beyond performance, ConceptMoE reduces attention computation by up to R^2times and KV cache by Rtimes. At R=2, empirical measurements show prefill speedups reaching 175\% and decoding speedups up to 117\% on long sequences. The minimal architectural modifications enable straightforward integration into existing MoE, demonstrating that adaptive concept-level processing fundamentally improves both effectiveness and efficiency of large language models.

ConceptMoE: Compressione Adattiva da Token a Concetto per l'Allocazione Implicita del Calcolo

ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation

Abstract

Support