HodgeCover : La couverture topologique d'ordre supérieur entraîne la compression du mélange parcimonieux d'experts

Résumé

Les couches de mélange clairsemé d'experts (MoE) acheminent les jetons à travers une poignée d'experts, et la compression sans apprentissage de ces couches réduit le coût d'inférence sans réentraînement. Une obstruction subtile bloque tous les compresseurs existants de cette famille : trois experts peuvent chacun être compatibles deux à deux tout en formant un cycle irréductible lorsqu'ils sont fusionnés, de sorte que tout score classant les experts sur la base de signaux par paires est structurellement aveugle à la question de savoir quels triplets sont conjointement fusionnables. Nous montrons que l'obstruction est un objet mathématique précis : le noyau harmonique du Laplacien simplicial sur un 2-complexe dont les sommets sont les experts, dont les arêtes portent des barrières de fusion KL, et dont les faces portent des barrières de triplets ; la décomposition de Hodge du signal de barrière sur les arêtes isole exactement ce noyau. Nous transformons ce diagnostic en un objectif de sélection : HodgeCover couvre de manière gloutonne les arêtes critiques harmoniques et les triangles critiques de triplets, et une variante hybride de HodgeCover l'associe à un élagage standard des poids sur les survivants. Sur trois architectures de base MoE clairsemées à poids ouverts soumises à une réduction agressive d'experts, HodgeCover égalise les bases de référence sans apprentissage de pointe sur l'axe de la réduction d'experts, mène sur la frontière de la compression agressive de l'axe hybride, et équilibre de manière unique la masse retenue sur l'ensemble des quatre composantes de Hodge. Ces résultats montrent que l'exposition du noyau harmonique d'une structure MoE apprise modifie le compresseur qui l'emporte dans le régime qui importe le plus.

English

Sparse Mixture-of-Experts (MoE) layers route tokens through a handful of experts, and learning-free compression of these layers reduces inference cost without retraining. A subtle obstruction blocks every existing compressor in this family: three experts can each be pairwise compatible yet form an irreducible cycle when merged together, so any score that ranks experts on pairwise signals is structurally blind to which triples are jointly mergeable. We show the obstruction is a precise mathematical object, the harmonic kernel of the simplicial Laplacian on a 2-complex whose vertices are experts, whose edges carry KL merge barriers, and whose faces carry triplet barriers; Hodge-decomposing the edge-barrier signal isolates the kernel exactly. We turn the diagnostic into a selection objective: HodgeCover greedily covers the harmonic-critical edges and triplet-critical triangles, and a hybrid variant of HodgeCover pairs it with off-the-shelf weight pruning on survivors. On three open-weight Sparse MoE backbones under aggressive expert reduction, HodgeCover matches state-of-the-art learning-free baselines on the expert-reduction axis, leads on the aggressive-compression frontier of the hybrid axis, and uniquely balances retained mass across all four Hodge components. These results show that exposing the harmonic kernel of a learned MoE structure changes which compressor wins at the regime that matters most.