HodgeCover: La Cobertura Topológica de Orden Superior Impulsa la Compresión de la Mezcla Dispersa de Expertos

Resumen

Las capas de Mezcla Dispersa de Expertos (MoE) enrutan tokens a través de un puñado de expertos, y la compresión sin aprendizaje de estas capas reduce el costo de inferencia sin reentrenamiento. Una obstrucción sutil bloquea a todos los compresores existentes en esta familia: tres expertos pueden ser compatibles por pares pero formar un ciclo irreducible al fusionarse, por lo que cualquier puntuación que clasifique expertos según señales por pares es estructuralmente ciega a qué tripletes son fusionables conjuntamente. Mostramos que la obstrucción es un objeto matemático preciso, el núcleo armónico del Laplaciano simplicial en un 2-complejo cuyos vértices son expertos, cuyas aristas llevan barreras de fusión KL y cuyas caras llevan barreras de tripletes; la descomposición de Hodge de la señal de barrera de aristas aísla exactamente el núcleo. Convertimos el diagnóstico en un objetivo de selección: HodgeCover cubre de manera voraz las aristas crítico-armónicas y los triángulos crítico-triplete, y una variante híbrida de HodgeCover lo empareja con poda de pesos estándar en los supervivientes. En tres modelos base MoE Dispersos de pesos abiertos bajo reducción agresiva de expertos, HodgeCover iguala las referencias de última generación sin aprendizaje en el eje de reducción de expertos, lidera en la frontera de compresión agresiva del eje híbrido, y equilibra de manera única la masa retenida en los cuatro componentes de Hodge. Estos resultados muestran que exponer el núcleo armónico de una estructura MoE aprendida cambia qué compresor gana en el régimen que más importa.

English

Sparse Mixture-of-Experts (MoE) layers route tokens through a handful of experts, and learning-free compression of these layers reduces inference cost without retraining. A subtle obstruction blocks every existing compressor in this family: three experts can each be pairwise compatible yet form an irreducible cycle when merged together, so any score that ranks experts on pairwise signals is structurally blind to which triples are jointly mergeable. We show the obstruction is a precise mathematical object, the harmonic kernel of the simplicial Laplacian on a 2-complex whose vertices are experts, whose edges carry KL merge barriers, and whose faces carry triplet barriers; Hodge-decomposing the edge-barrier signal isolates the kernel exactly. We turn the diagnostic into a selection objective: HodgeCover greedily covers the harmonic-critical edges and triplet-critical triangles, and a hybrid variant of HodgeCover pairs it with off-the-shelf weight pruning on survivors. On three open-weight Sparse MoE backbones under aggressive expert reduction, HodgeCover matches state-of-the-art learning-free baselines on the expert-reduction axis, leads on the aggressive-compression frontier of the hybrid axis, and uniquely balances retained mass across all four Hodge components. These results show that exposing the harmonic kernel of a learned MoE structure changes which compressor wins at the regime that matters most.