ConceptMoE: Compressão Adaptativa de Token para Conceito para Alocação Implícita de Computação

Resumo

Os modelos de linguagem de grande escala alocam computação uniformemente em todos os tokens, ignorando que algumas sequências são trivialmente previsíveis enquanto outras exigem raciocínio profundo. Apresentamos o ConceptMoE, que funde dinamicamente tokens semanticamente semelhantes em representações conceituais, realizando uma alocação implícita de computação a nível de token. Um módulo de segmentação aprendível identifica os limites ideais medindo a similaridade inter-tokens, comprimindo as sequências por uma razão alvo R antes de entrarem no modelo conceptual computacionalmente intensivo. Crucialmente, a arquitetura MoE permite avaliação controlada: realocamos a computação poupada para igualar os FLOPs ativados da baseline (excluindo o cálculo da matriz de atenção) e o total de parâmetros, isolando os benefícios arquitetónicos genuínos. Sob estas condições, o ConceptMoE supera consistentemente o MoE padrão em tarefas de linguagem e visão-linguagem, alcançando +0,9 pontos no pré-treinamento linguístico, +2,3 pontos na compreensão de contexto longo e +0,6 pontos em benchmarks multimodais. Ao converter MoE pré-treinados durante o treino contínuo com *layer looping*, os ganhos atingem +5,5 pontos, demonstrando aplicabilidade prática. Para além do desempenho, o ConceptMoE reduz o cálculo de atenção até R² vezes e a cache KV em R vezes. Com R=2, medições empíricas mostram acelerações no preenchimento (*prefill*) até 175% e acelerações na descodificação até 117% em sequências longas. As modificações arquitetónicas mínimas permitem uma integração direta em MoE existentes, demonstrando que o processamento adaptativo a nível conceptual melhora fundamentalmente tanto a eficácia como a eficiência dos modelos de linguagem de grande escala.

English

Large language models allocate uniform computation across all tokens, ignoring that some sequences are trivially predictable while others require deep reasoning. We introduce ConceptMoE, which dynamically merges semantically similar tokens into concept representations, performing implicit token-level compute allocation. A learnable chunk module identifies optimal boundaries by measuring inter-token similarity, compressing sequences by a target ratio R before they enter the compute-intensive concept model. Crucially, the MoE architecture enables controlled evaluation: we reallocate saved computation to match baseline activated FLOPs (excluding attention map computation) and total parameters, isolating genuine architectural benefits. Under these conditions, ConceptMoE consistently outperforms standard MoE across language and vision-language tasks, achieving +0.9 points on language pretraining, +2.3 points on long context understanding, and +0.6 points on multimodal benchmarks. When converting pretrained MoE during continual training with layer looping, gains reach +5.5 points, demonstrating practical applicability. Beyond performance, ConceptMoE reduces attention computation by up to R^2times and KV cache by Rtimes. At R=2, empirical measurements show prefill speedups reaching 175\% and decoding speedups up to 117\% on long sequences. The minimal architectural modifications enable straightforward integration into existing MoE, demonstrating that adaptive concept-level processing fundamentally improves both effectiveness and efficiency of large language models.

ConceptMoE: Compressão Adaptativa de Token para Conceito para Alocação Implícita de Computação

ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation

Resumo

Support