HodgeCover: Höhergradige topologische Überdeckung treibt die Kompression von Sparse Mixture-of-Experts an.
HodgeCover: Higher-Order Topological Coverage Drives Compression of Sparse Mixture-of-Experts
May 13, 2026
Autoren: Tao Zhong, Dongzhe Zheng, Christine Allen-Blanchette
cs.AI
Zusammenfassung
Sparse-Mixture-of-Experts (MoE)-Schichten leiten Token durch eine Handvoll Experten, und die lernfreie Kompression dieser Schichten reduziert die Inferenzkosten ohne Nachtraining. Ein subtiles Hindernis blockiert jeden existierenden Kompressor dieser Familie: Drei Experten können jeweils paarweise kompatibel sein, aber bei gemeinsamer Zusammenführung einen irreduziblen Zyklus bilden, sodass jeder Score, der Experten anhand paarweiser Signale bewertet, strukturell blind dafür ist, welche Tripel gemeinsam zusammenführbar sind. Wir zeigen, dass das Hindernis ein präzises mathematisches Objekt ist – den harmonischen Kern des simplizialen Laplace-Operators auf einem 2-Komplex, dessen Knoten die Experten sind, dessen Kanten KL-Zusammenführungsbarrieren tragen und dessen Flächen Tripel-Barrieren tragen. Die Hodge-Zerlegung des Kantenbarriere-Signals isoliert den Kern exakt. Wir verwandeln die Diagnose in ein Selektionsziel: HodgeCover überdeckt gierig die harmonisch-kritischen Kanten und tripelkritischen Dreiecke, und eine hybride Variante von HodgeCover kombiniert dies mit Standard-Gewichtsbereinigung an Überlebenden. Auf drei offenen Sparse-MoE-Grundmodellen unter aggressiver Expertenreduktion erreicht HodgeCover auf der Expertenreduktionsachse den Stand der Technik bei lernfreien Baselines, führt an der Front der aggressiven Kompression auf der Hybridachse und balanciert einzigartig die beibehaltene Masse über alle vier Hodge-Komponenten. Diese Ergebnisse zeigen, dass die Offenlegung des harmonischen Kerns einer gelernten MoE-Struktur ändert, welcher Kompressor im wichtigsten Regime gewinnt.
English
Sparse Mixture-of-Experts (MoE) layers route tokens through a handful of experts, and learning-free compression of these layers reduces inference cost without retraining. A subtle obstruction blocks every existing compressor in this family: three experts can each be pairwise compatible yet form an irreducible cycle when merged together, so any score that ranks experts on pairwise signals is structurally blind to which triples are jointly mergeable. We show the obstruction is a precise mathematical object, the harmonic kernel of the simplicial Laplacian on a 2-complex whose vertices are experts, whose edges carry KL merge barriers, and whose faces carry triplet barriers; Hodge-decomposing the edge-barrier signal isolates the kernel exactly. We turn the diagnostic into a selection objective: HodgeCover greedily covers the harmonic-critical edges and triplet-critical triangles, and a hybrid variant of HodgeCover pairs it with off-the-shelf weight pruning on survivors. On three open-weight Sparse MoE backbones under aggressive expert reduction, HodgeCover matches state-of-the-art learning-free baselines on the expert-reduction axis, leads on the aggressive-compression frontier of the hybrid axis, and uniquely balances retained mass across all four Hodge components. These results show that exposing the harmonic kernel of a learned MoE structure changes which compressor wins at the regime that matters most.