ConceptMoE: Адаптивное сжатие токен-в-концепт для неявного распределения вычислений

Аннотация

Крупные языковые модели распределяют вычислительные ресурсы равномерно по всем токенам, игнорируя тот факт, что некоторые последовательности тривиально предсказуемы, а другие требуют глубоких рассуждений. Мы представляем ConceptMoE — модель, которая динамически объединяет семантически схожие токены в концептуальные представления, осуществляя неявное распределение вычислений на уровне токенов. Обучаемый модуль чанкинга определяет оптимальные границы путем измерения межтокенного сходства, сжимая последовательности в целевое число раз R до их поступления в вычислительно интенсивную концептуальную модель. Ключевым преимуществом архитектуры MoE является возможность контролируемой оценки: мы перераспределяем сэкономленные вычисления для соответствия базовым активированным FLOPам (исключая вычисление карт внимания) и общему количеству параметров, изолируя истинные преимущества архитектуры. В этих условиях ConceptMoE стабильно превосходит стандартную MoE в языковых и визуально-языковых задачах, демонстрируя прирост +0.9 пункта при языковом предобучении, +2.3 пункта в понимании длинного контекста и +0.6 пункта в мультимодальных тестах. При конвертации предобученной MoE во время непрерывного обучения с циклическим повторением слоев прирост достигает +5.5 пунктов, что подтверждает практическую применимость. Помимо производительности, ConceptMoE сокращает вычисления механизма внимания до R^2 раз и кэш KV-пар до R раз. При R=2 эмпирические измерения показывают ускорение фазы предзаполнения до 175% и ускорение декодирования до 117% на длинных последовательностях. Минимальные модификации архитектуры позволяют легко интегрировать метод в существующие MoE, демонстрируя, что адаптивная обработка на концептуальном уровне принципиально улучшает как эффективность, так и производительность крупных языковых моделей.

English

Large language models allocate uniform computation across all tokens, ignoring that some sequences are trivially predictable while others require deep reasoning. We introduce ConceptMoE, which dynamically merges semantically similar tokens into concept representations, performing implicit token-level compute allocation. A learnable chunk module identifies optimal boundaries by measuring inter-token similarity, compressing sequences by a target ratio R before they enter the compute-intensive concept model. Crucially, the MoE architecture enables controlled evaluation: we reallocate saved computation to match baseline activated FLOPs (excluding attention map computation) and total parameters, isolating genuine architectural benefits. Under these conditions, ConceptMoE consistently outperforms standard MoE across language and vision-language tasks, achieving +0.9 points on language pretraining, +2.3 points on long context understanding, and +0.6 points on multimodal benchmarks. When converting pretrained MoE during continual training with layer looping, gains reach +5.5 points, demonstrating practical applicability. Beyond performance, ConceptMoE reduces attention computation by up to R^2times and KV cache by Rtimes. At R=2, empirical measurements show prefill speedups reaching 175\% and decoding speedups up to 117\% on long sequences. The minimal architectural modifications enable straightforward integration into existing MoE, demonstrating that adaptive concept-level processing fundamentally improves both effectiveness and efficiency of large language models.

ConceptMoE: Адаптивное сжатие токен-в-концепт для неявного распределения вычислений

ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation

Аннотация

Support