HodgeCover: Cobertura Topológica de Ordem Superior Impulsiona a Compressão de Mistura Esparsa de Especialistas
HodgeCover: Higher-Order Topological Coverage Drives Compression of Sparse Mixture-of-Experts
May 13, 2026
Autores: Tao Zhong, Dongzhe Zheng, Christine Allen-Blanchette
cs.AI
Resumo
Camadas de Mistura Esparsa de Especialistas (MoE) roteiam tokens por um punhado de especialistas, e a compressão sem aprendizado dessas camadas reduz o custo de inferência sem retreinamento. Uma obstrução sutil bloqueia todos os compressores existentes nesta família: três especialistas podem ser compatíveis aos pares, mas formar um ciclo irredutível quando mesclados juntos, de modo que qualquer escore que classifique especialistas com base em sinais aos pares é estruturalmente cego quanto a quais triplas são conjuntamente mescláveis. Mostramos que a obstrução é um objeto matemático preciso, o núcleo harmônico do Laplaciano simplicial em um 2-complexo cujos vértices são especialistas, cujas arestas carregam barreiras de mesclagem KL e cujas faces carregam barreiras de tripletos; decompor o sinal de barreira das arestas via Hodge isola o núcleo exatamente. Transformamos o diagnóstico em um objetivo de seleção: HodgeCover cobre greedy as arestas harmonicamente críticas e os triângulos críticos para tripletos, e uma variante híbrida do HodgeCover o combina com poda de pesos padrão nos sobreviventes. Em três backbones MoE Esparsos de pesos abertos sob redução agressiva de especialistas, HodgeCover iguala as linhas de base sem aprendizado do estado da arte no eixo de redução de especialistas, lidera na fronteira de compressão agressiva do eixo híbrido e equilibra de forma única a massa retida em todos os quatro componentes de Hodge. Esses resultados mostram que expor o núcleo harmônico de uma estrutura MoE aprendida altera qual compressor vence no regime que mais importa.
English
Sparse Mixture-of-Experts (MoE) layers route tokens through a handful of experts, and learning-free compression of these layers reduces inference cost without retraining. A subtle obstruction blocks every existing compressor in this family: three experts can each be pairwise compatible yet form an irreducible cycle when merged together, so any score that ranks experts on pairwise signals is structurally blind to which triples are jointly mergeable. We show the obstruction is a precise mathematical object, the harmonic kernel of the simplicial Laplacian on a 2-complex whose vertices are experts, whose edges carry KL merge barriers, and whose faces carry triplet barriers; Hodge-decomposing the edge-barrier signal isolates the kernel exactly. We turn the diagnostic into a selection objective: HodgeCover greedily covers the harmonic-critical edges and triplet-critical triangles, and a hybrid variant of HodgeCover pairs it with off-the-shelf weight pruning on survivors. On three open-weight Sparse MoE backbones under aggressive expert reduction, HodgeCover matches state-of-the-art learning-free baselines on the expert-reduction axis, leads on the aggressive-compression frontier of the hybrid axis, and uniquely balances retained mass across all four Hodge components. These results show that exposing the harmonic kernel of a learned MoE structure changes which compressor wins at the regime that matters most.