ConceptMoE: Adaptive Token-zu-Konzept-Kompression für implizite Compute-Zuordnung

papers.abstract

Große Sprachmodelle verteilen Rechenleistung gleichmäßig auf alle Tokens, obwohl einige Sequenzen trivial vorhersagbar sind, während andere tiefgreifende Schlussfolgerungen erfordern. Wir stellen ConceptMoE vor, das semantisch ähnliche Tokens dynamisch zu Konzeptrepräsentationen zusammenfasst und so eine implizite compute-allokation auf Token-Ebene durchführt. Ein lernbares Segmentierungsmodul identifiziert optimale Grenzen durch Messung der Ähnlichkeit zwischen Tokens und komprimiert Sequenzen um ein Zielverhältnis R, bevor sie in das rechenintensive Konzeptmodell eingehen. Entscheidend ist, dass die MoE-Architektur eine kontrollierte Evaluation ermöglicht: Wir verteilen die eingesparte Rechenleistung neu, um die aktivierten FLOPs der Baseline (ohne Attention-Map-Berechnung) und die Gesamtparameteranzahl abzugleichen, und isolieren so genuine architektonische Vorteile. Unter diesen Bedingungen übertrifft ConceptMoE Standard-MoE konsistent bei Sprach- und Sprach-Bild-Aufgaben, mit Steigerungen von +0,9 Punkten im Sprach-Pretraining, +2,3 Punkten im Langkontextverständnis und +0,6 Punkten in multimodalen Benchmarks. Bei der Konvertierung vortrainierter MoE-Modelle während kontinuierlichen Trainings mit Layer-Looping erreichen die Gewinne +5,5 Punkte, was die praktische Anwendbarkeit demonstriert. Neben der Leistungssteigerung reduziert ConceptMoE die Attention-Berechnung um bis zu R^2-fach und den KV-Cache um R-fach. Bei R=2 zeigen empirische Messungen Prefill-Beschleunigungen von bis zu 175 % und Decoding-Beschleunigungen von bis zu 117 % bei langen Sequenzen. Die minimalen architektonischen Modifikationen ermöglichen eine direkte Integration in bestehende MoE-Architekturen und zeigen, dass adaptive Verarbeitung auf Konzeptebene die Wirksamkeit und Effizienz großer Sprachmodelle grundlegend verbessert.

English

Large language models allocate uniform computation across all tokens, ignoring that some sequences are trivially predictable while others require deep reasoning. We introduce ConceptMoE, which dynamically merges semantically similar tokens into concept representations, performing implicit token-level compute allocation. A learnable chunk module identifies optimal boundaries by measuring inter-token similarity, compressing sequences by a target ratio R before they enter the compute-intensive concept model. Crucially, the MoE architecture enables controlled evaluation: we reallocate saved computation to match baseline activated FLOPs (excluding attention map computation) and total parameters, isolating genuine architectural benefits. Under these conditions, ConceptMoE consistently outperforms standard MoE across language and vision-language tasks, achieving +0.9 points on language pretraining, +2.3 points on long context understanding, and +0.6 points on multimodal benchmarks. When converting pretrained MoE during continual training with layer looping, gains reach +5.5 points, demonstrating practical applicability. Beyond performance, ConceptMoE reduces attention computation by up to R^2times and KV cache by Rtimes. At R=2, empirical measurements show prefill speedups reaching 175\% and decoding speedups up to 117\% on long sequences. The minimal architectural modifications enable straightforward integration into existing MoE, demonstrating that adaptive concept-level processing fundamentally improves both effectiveness and efficiency of large language models.

ConceptMoE: Adaptive Token-zu-Konzept-Kompression für implizite Compute-Zuordnung

ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation

papers.abstract

Support