HodgeCover: 高次位相的被覆がスパース混合エキスパートの圧縮を駆動する
HodgeCover: Higher-Order Topological Coverage Drives Compression of Sparse Mixture-of-Experts
May 13, 2026
著者: Tao Zhong, Dongzhe Zheng, Christine Allen-Blanchette
cs.AI
要旨
Sparse Mixture-of-Experts(スパース混合専門家:MoE)層は、少数の専門家(エキスパート)を通じてトークンをルーティングし、これらの層を学習不要で圧縮することで、再学習を必要とせずに推論コストを削減する。しかし、このファミリーに属する既存の圧縮手法すべてに対して、微妙な障害が立ちはだかる。すなわち、三つの専門家はそれぞれ互いにペアワイズで両立可能でありながら、統合時に既約なサイクルを形成することがあるため、ペアワイズ信号に基づいて専門家をランク付けする任意のスコアは、どの三つ組が統合可能かを構造的に認識できない。本論文では、この障害が精密な数学的対象、すなわち専門家を頂点とし、辺がKLマージ障壁を、面が三つ組障壁を担う2次元複体上の単体ラプラシアンの調和核であることを示す。辺障壁信号をホッジ分解することで、この核を正確に分離できる。我々はこの診断手法を選択目的関数へと転換する。すなわち、HodgeCoverは調和臨界辺と三つ組臨界三角形を貪欲に被覆し、そのハイブリッド変種はこれを既存の重み枝刈り手法と組み合わせて生存ユニットに適用する。三つのオープンウェイトのスパースMoEバックボーンに対し、積極的な専門家削減の下で、HodgeCoverは専門家削減軸では最先端の学習不要ベースラインと同等の性能を示し、ハイブリッド軸の積極的圧縮フロンティアではリードし、さらに四つのホッジ成分全体にわたって保持質量を独自にバランスさせる。これらの結果は、学習されたMoE構造の調和核を可視化することで、最も重要な領域において圧縮手法の優劣が変わることを示している。
English
Sparse Mixture-of-Experts (MoE) layers route tokens through a handful of experts, and learning-free compression of these layers reduces inference cost without retraining. A subtle obstruction blocks every existing compressor in this family: three experts can each be pairwise compatible yet form an irreducible cycle when merged together, so any score that ranks experts on pairwise signals is structurally blind to which triples are jointly mergeable. We show the obstruction is a precise mathematical object, the harmonic kernel of the simplicial Laplacian on a 2-complex whose vertices are experts, whose edges carry KL merge barriers, and whose faces carry triplet barriers; Hodge-decomposing the edge-barrier signal isolates the kernel exactly. We turn the diagnostic into a selection objective: HodgeCover greedily covers the harmonic-critical edges and triplet-critical triangles, and a hybrid variant of HodgeCover pairs it with off-the-shelf weight pruning on survivors. On three open-weight Sparse MoE backbones under aggressive expert reduction, HodgeCover matches state-of-the-art learning-free baselines on the expert-reduction axis, leads on the aggressive-compression frontier of the hybrid axis, and uniquely balances retained mass across all four Hodge components. These results show that exposing the harmonic kernel of a learned MoE structure changes which compressor wins at the regime that matters most.