ChatPaper.aiChatPaper

HodgeCover: Hogere-orde topologische dekking drijft compressie van Sparse Mixture-of-Experts

HodgeCover: Higher-Order Topological Coverage Drives Compression of Sparse Mixture-of-Experts

May 13, 2026
Auteurs: Tao Zhong, Dongzhe Zheng, Christine Allen-Blanchette
cs.AI

Samenvatting

Spaarse Mixture-of-Experts (MoE)-lagen leiden tokens door een handvol experts, en leervrije compressie van deze lagen vermindert de inferentiekosten zonder hertraining. Een subtiele obstructie blokkeert elke bestaande compressor in deze familie: drie experts kunnen elk paarsgewijs compatibel zijn en toch een onherleidbare cyclus vormen wanneer ze worden samengevoegd, dus elke score die experts rangschikt op basis van paarsgewijze signalen is structureel blind voor welke triples gezamenlijk samenvoegbaar zijn. We tonen aan dat de obstructie een precies wiskundig object is, de harmonische kern van de simpliciale Laplaciaan op een 2-complex waarvan de hoekpunten experts zijn, de ribben KL-fusiebarrières dragen en de zijvlakken triplebarrières dragen; Hodge-decompositie van het rib-barrièresignaal isoleert de kern exact. We veranderen de diagnostiek in een selectiedoel: HodgeCover dekt gulzig de harmonisch-kritische ribben en triple-kritische driehoeken, en een hybride variant van HodgeCover combineert dit met standaard gewichtssnoei op overlevenden. Op drie open-gewicht Sparse MoE-backbones onder agressieve expertreductie evenaart HodgeCover de state-of-the-art leervrije basislijnen op de as van expertreductie, leidt het op het front van agressieve compressie van de hybride as, en balanceert het uniek de behouden massa over alle vier Hodge-componenten. Deze resultaten tonen aan dat het blootleggen van de harmonische kern van een aangeleerde MoE-structuur verandert welke compressor wint in het regime dat het meest telt.
English
Sparse Mixture-of-Experts (MoE) layers route tokens through a handful of experts, and learning-free compression of these layers reduces inference cost without retraining. A subtle obstruction blocks every existing compressor in this family: three experts can each be pairwise compatible yet form an irreducible cycle when merged together, so any score that ranks experts on pairwise signals is structurally blind to which triples are jointly mergeable. We show the obstruction is a precise mathematical object, the harmonic kernel of the simplicial Laplacian on a 2-complex whose vertices are experts, whose edges carry KL merge barriers, and whose faces carry triplet barriers; Hodge-decomposing the edge-barrier signal isolates the kernel exactly. We turn the diagnostic into a selection objective: HodgeCover greedily covers the harmonic-critical edges and triplet-critical triangles, and a hybrid variant of HodgeCover pairs it with off-the-shelf weight pruning on survivors. On three open-weight Sparse MoE backbones under aggressive expert reduction, HodgeCover matches state-of-the-art learning-free baselines on the expert-reduction axis, leads on the aggressive-compression frontier of the hybrid axis, and uniquely balances retained mass across all four Hodge components. These results show that exposing the harmonic kernel of a learned MoE structure changes which compressor wins at the regime that matters most.