ConceptMoE: Adaptieve Token-naar-Concept Compressie voor Impliciete Compute-Toewijzing

Samenvatting

Grote taalmodellen verdelen de rekenkracht uniform over alle tokens, zonder rekening te houden met het feit dat sommige reeksen triviaal voorspelbaar zijn terwijl andere diepgaand redeneren vereisen. Wij introduceren ConceptMoE, dat semantisch gelijkaardige tokens dynamisch samenvoegt tot conceptrepresentaties, waardoor een impliciete toewijzing van rekenkracht op tokenniveau plaatsvindt. Een leerbare chunkmodule identificeert optimale grenzen door de onderlinge gelijkenis tussen tokens te meten, en comprimeert reeksen met een doelratio R voordat ze het rekenintensieve conceptmodel binnenkomen. Cruciaal is dat de MoE-architectuur gecontroleerde evaluatie mogelijk maakt: we herverdelen de bespaarde rekenkracht om de geactiveerde FLOP's van de baseline (exclusief de berekening van aandachtswaarden) en het totale aantal parameters te evenaren, waardoor de echte architectuurvoordelen geïsoleerd worden. Onder deze omstandigheden presteert ConceptMoE consistent beter dan standaard MoE voor zowel taal- als vision-language taken, met een verbetering van +0,9 punten bij taalpretraining, +2,3 punten bij begrip van lange context en +0,6 punten op multimodale benchmarks. Wanneer een voorgetrainde MoE wordt omgezet tijdens continue training met layer looping, lopen de verbeteringen op tot +5,5 punten, wat de praktische toepasbaarheid aantoont. Naast de prestaties vermindert ConceptMoE de aandachtberekening tot R^2 keer en de KV-cache met R keer. Bij R=2 tonen empirische metingen aan dat de prefill-snelheid oploopt tot 175% en de decodering-snelheid tot 117% voor lange sequenties. De minimale architecturale aanpassingen maken een eenvoudige integratie in bestaande MoE-modellen mogelijk, wat aantoont dat adaptieve verwerking op conceptniveau zowel de effectiviteit als de efficiëntie van grote taalmodellen fundamenteel verbetert.

English

Large language models allocate uniform computation across all tokens, ignoring that some sequences are trivially predictable while others require deep reasoning. We introduce ConceptMoE, which dynamically merges semantically similar tokens into concept representations, performing implicit token-level compute allocation. A learnable chunk module identifies optimal boundaries by measuring inter-token similarity, compressing sequences by a target ratio R before they enter the compute-intensive concept model. Crucially, the MoE architecture enables controlled evaluation: we reallocate saved computation to match baseline activated FLOPs (excluding attention map computation) and total parameters, isolating genuine architectural benefits. Under these conditions, ConceptMoE consistently outperforms standard MoE across language and vision-language tasks, achieving +0.9 points on language pretraining, +2.3 points on long context understanding, and +0.6 points on multimodal benchmarks. When converting pretrained MoE during continual training with layer looping, gains reach +5.5 points, demonstrating practical applicability. Beyond performance, ConceptMoE reduces attention computation by up to R^2times and KV cache by Rtimes. At R=2, empirical measurements show prefill speedups reaching 175\% and decoding speedups up to 117\% on long sequences. The minimal architectural modifications enable straightforward integration into existing MoE, demonstrating that adaptive concept-level processing fundamentally improves both effectiveness and efficiency of large language models.

ConceptMoE: Adaptieve Token-naar-Concept Compressie voor Impliciete Compute-Toewijzing

ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation

Samenvatting

Support