REAM: Zusammenführen verbessert das Ausdünnen von Experten in großen Sprachmodellen

Zusammenfassung

Mixture-of-Experts (MoE) Large Language Models (LLMs) gehören zu den leistungsstärksten Architekturen. Die größten Modelle, oft mit Hunderten von Milliarden Parametern, stellen erhebliche Speicherherausforderungen für den Einsatz dar. Traditionelle Ansätze zur Reduzierung des Speicherbedarfs umfassen Gewichtspruning und Quantisierung. Inspiriert von Router-weighted Expert Activation Pruning (REAP), das Experten entfernt, schlagen wir eine neuartige Methode vor: Router-weighted Expert Activation Merging (REAM). Anstatt Experten zu entfernen, gruppiert REAM diese und fusioniert ihre Gewichte, wodurch die ursprüngliche Leistung besser erhalten bleibt. Wir evaluieren REAM im Vergleich zu REAP und anderen Baseline-Methoden über mehrere MoE-LLMs hinweg auf diversen Multiple-Choice (MC)-Frage-Antwort- und generativen (GEN) Benchmarks. Unsere Ergebnisse zeigen einen Zielkonflikt zwischen MC- und GEN-Leistung, der von der Zusammensetzung der Kalibrierungsdaten abhängt. Durch Steuerung des Anteils von allgemeinen, mathematischen und Programmierdaten untersuchen wir die Pareto-Grenze dieses Trade-offs und zeigen, dass REAM die Baselines oft übertrifft und in vielen Fällen mit den originalen unkomprimierten Modellen vergleichbar ist.

English

Mixture-of-Experts (MoE) large language models (LLMs) are among the top-performing architectures. The largest models, often with hundreds of billions of parameters, pose significant memory challenges for deployment. Traditional approaches to reduce memory requirements include weight pruning and quantization. Motivated by the Router-weighted Expert Activation Pruning (REAP) that prunes experts, we propose a novel method, Router-weighted Expert Activation Merging (REAM). Instead of removing experts, REAM groups them and merges their weights, better preserving original performance. We evaluate REAM against REAP and other baselines across multiple MoE LLMs on diverse multiple-choice (MC) question answering and generative (GEN) benchmarks. Our results reveal a trade-off between MC and GEN performance that depends on the mix of calibration data. By controlling the mix of general, math and coding data, we examine the Pareto frontier of this trade-off and show that REAM often outperforms the baselines and in many cases is comparable to the original uncompressed models.

REAM: Zusammenführen verbessert das Ausdünnen von Experten in großen Sprachmodellen

REAM: Merging Improves Pruning of Experts in LLMs

Zusammenfassung

Support