ConceptMoE: Compresión Adaptativa de Tokens a Conceptos para la Asignación Implícita de Cálculo

Resumen

Los modelos de lenguaje grandes asignan un cómputo uniforme a todos los tokens, ignorando que algunas secuencias son trivialmente predecibles mientras que otras requieren un razonamiento profundo. Presentamos ConceptMoE, que fusiona dinámicamente tokens semánticamente similares en representaciones conceptuales, realizando una asignación implícita de cómputo a nivel de token. Un módulo de segmentación entrenable identifica los límites óptimos midiendo la similitud inter-token, comprimiendo las secuencias por una razón objetivo R antes de que entren al modelo conceptual intensivo en cómputo. Crucialmente, la arquitectura MoE permite una evaluación controlada: reasignamos el cómputo ahorrado para igualar los FLOPS activados de la línea base (excluyendo el cálculo del mapa de atención) y el total de parámetros, aislando así los beneficios arquitectónicos genuinos. Bajo estas condiciones, ConceptMoE supera consistentemente al MoE estándar en tareas de lenguaje y visión-lenguaje, logrando +0.9 puntos en preentrenamiento de lenguaje, +2.3 puntos en comprensión de contexto largo y +0.6 puntos en benchmarks multimodales. Al convertir modelos MoE preentrenados durante el entrenamiento continuo con bucle de capas, las ganancias alcanzan +5.5 puntos, demostrando aplicabilidad práctica. Más allá del rendimiento, ConceptMoE reduce el cómputo de atención hasta R^2 veces y la caché KV en R veces. Con R=2, mediciones empíricas muestran aceleraciones en prellenado de hasta 175% y aceleraciones en decodificación de hasta 117% en secuencias largas. Las modificaciones arquitectónicas mínimas permiten una integración directa en MoE existentes, demostrando que el procesamiento adaptativo a nivel conceptual mejora fundamentalmente tanto la efectividad como la eficiencia de los modelos de lenguaje grandes.

English

Large language models allocate uniform computation across all tokens, ignoring that some sequences are trivially predictable while others require deep reasoning. We introduce ConceptMoE, which dynamically merges semantically similar tokens into concept representations, performing implicit token-level compute allocation. A learnable chunk module identifies optimal boundaries by measuring inter-token similarity, compressing sequences by a target ratio R before they enter the compute-intensive concept model. Crucially, the MoE architecture enables controlled evaluation: we reallocate saved computation to match baseline activated FLOPs (excluding attention map computation) and total parameters, isolating genuine architectural benefits. Under these conditions, ConceptMoE consistently outperforms standard MoE across language and vision-language tasks, achieving +0.9 points on language pretraining, +2.3 points on long context understanding, and +0.6 points on multimodal benchmarks. When converting pretrained MoE during continual training with layer looping, gains reach +5.5 points, demonstrating practical applicability. Beyond performance, ConceptMoE reduces attention computation by up to R^2times and KV cache by Rtimes. At R=2, empirical measurements show prefill speedups reaching 175\% and decoding speedups up to 117\% on long sequences. The minimal architectural modifications enable straightforward integration into existing MoE, demonstrating that adaptive concept-level processing fundamentally improves both effectiveness and efficiency of large language models.

ConceptMoE: Compresión Adaptativa de Tokens a Conceptos para la Asignación Implícita de Cálculo

ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation

Resumen

Support