HodgeCover: топологическое покрытие высшего порядка обеспечивает сжатие разреженной смеси экспертов

Аннотация

Разреженные слои смеси экспертов (MoE) направляют токены через небольшое количество экспертов, а сжатие без обучения этих слоев снижает стоимость инференса без повторного обучения. Тонкое препятствие мешает всем существующим компрессорам в этом семействе: три эксперта могут быть попарно совместимы, но при слиянии образовывать неприводимый цикл, поэтому любая оценка, ранжирующая экспертов по парным сигналам, структурно нечувствительна к тому, какие тройки совместно поддаются слиянию. Мы показываем, что это препятствие является точным математическим объектом — гармоническим ядром симплициального лапласиана на 2-комплексе, вершинами которого являются эксперты, ребра несут KL-барьеры слияния, а грани — триплетные барьеры; разложение Ходжа сигнала реберных барьеров изолирует ядро в точности. Мы превращаем диагностику в целевую функцию отбора: HodgeCover жадно покрывает гармонически-критические ребра и триплетно-критические треугольники, а гибридный вариант HodgeCover сочетает это со стандартным прореживанием весов у выживших компонентов. На трех разреженных MoE-основах с открытыми весами при агрессивном сокращении числа экспертов HodgeCover соответствует современным базовым методам без обучения по оси сокращения экспертов, лидирует на передовой агрессивного сжатия по гибридной оси и уникальным образом балансирует сохраненную массу по всем четырем компонентам Ходжа. Эти результаты показывают, что раскрытие гармонического ядра обученной структуры MoE меняет то, какой компрессор побеждает в наиболее важном режиме.

English

Sparse Mixture-of-Experts (MoE) layers route tokens through a handful of experts, and learning-free compression of these layers reduces inference cost without retraining. A subtle obstruction blocks every existing compressor in this family: three experts can each be pairwise compatible yet form an irreducible cycle when merged together, so any score that ranks experts on pairwise signals is structurally blind to which triples are jointly mergeable. We show the obstruction is a precise mathematical object, the harmonic kernel of the simplicial Laplacian on a 2-complex whose vertices are experts, whose edges carry KL merge barriers, and whose faces carry triplet barriers; Hodge-decomposing the edge-barrier signal isolates the kernel exactly. We turn the diagnostic into a selection objective: HodgeCover greedily covers the harmonic-critical edges and triplet-critical triangles, and a hybrid variant of HodgeCover pairs it with off-the-shelf weight pruning on survivors. On three open-weight Sparse MoE backbones under aggressive expert reduction, HodgeCover matches state-of-the-art learning-free baselines on the expert-reduction axis, leads on the aggressive-compression frontier of the hybrid axis, and uniquely balances retained mass across all four Hodge components. These results show that exposing the harmonic kernel of a learned MoE structure changes which compressor wins at the regime that matters most.