Mixture-of-Supernets: Verbesserung des Weight-Sharing-Supernet-Trainings mit Architektur-gesteuertem Mixture-of-Experts

Zusammenfassung

Das Gewichteteilungs-Supernetz ist zu einem wesentlichen Bestandteil für die Leistungsschätzung in den modernsten (State-of-the-Art, SOTA) Frameworks für die Suche nach neuronalen Architekturen (Neural Architecture Search, NAS) geworden. Obwohl das Supernetz verschiedene Teilnetzwerke direkt ohne erneutes Training generieren kann, gibt es keine Garantie für die Qualität dieser Teilnetzwerke aufgrund der Gewichteteilung. Bei NLP-Aufgaben wie maschineller Übersetzung und vortrainiertem Sprachmodellieren beobachten wir, dass bei gleicher Modellarchitektur eine große Leistungslücke zwischen dem Supernetz und dem Training von Grund auf besteht. Daher kann das Supernetz nicht direkt verwendet werden, und ein erneutes Training ist nach der Ermittlung der optimalen Architekturen notwendig. In dieser Arbeit schlagen wir Mixture-of-Supernets vor, eine verallgemeinerte Formulierung des Supernetzes, bei der Mixture-of-Experts (MoE) eingesetzt wird, um die Ausdruckskraft des Supernetzmodells mit vernachlässigbarem Trainingsaufwand zu steigern. Auf diese Weise teilen sich verschiedene Teilnetzwerke die Modellgewichte nicht direkt, sondern über einen architekturbasierten Routing-Mechanismus. Dadurch werden die Modellgewichte verschiedener Teilnetzwerke auf ihre spezifischen Architekturen zugeschnitten, und die Gewichtsgenerierung wird durch Gradientenabstieg gelernt. Im Vergleich zu bestehenden Gewichteteilungs-Supernetzen für NLP kann unsere Methode die Nachtrainingszeit minimieren und die Trainingseffizienz erheblich verbessern. Darüber hinaus erreicht die vorgeschlagene Methode die SOTA-Leistung in der NAS für den Aufbau schneller maschineller Übersetzungsmodelle und bietet ein besseres Latenz-BLEU-Verhältnis im Vergleich zu HAT, dem State-of-the-Art NAS für MT. Wir erreichen auch die SOTA-Leistung in der NAS für den Aufbau speichereffizienter, aufgabenunabhängiger BERT-Modelle und übertreffen NAS-BERT und AutoDistil in verschiedenen Modellgrößen.

English

Weight-sharing supernet has become a vital component for performance estimation in the state-of-the-art (SOTA) neural architecture search (NAS) frameworks. Although supernet can directly generate different subnetworks without retraining, there is no guarantee for the quality of these subnetworks because of weight sharing. In NLP tasks such as machine translation and pre-trained language modeling, we observe that given the same model architecture, there is a large performance gap between supernet and training from scratch. Hence, supernet cannot be directly used and retraining is necessary after finding the optimal architectures. In this work, we propose mixture-of-supernets, a generalized supernet formulation where mixture-of-experts (MoE) is adopted to enhance the expressive power of the supernet model, with negligible training overhead. In this way, different subnetworks do not share the model weights directly, but through an architecture-based routing mechanism. As a result, model weights of different subnetworks are customized towards their specific architectures and the weight generation is learned by gradient descent. Compared to existing weight-sharing supernet for NLP, our method can minimize the retraining time, greatly improving training efficiency. In addition, the proposed method achieves the SOTA performance in NAS for building fast machine translation models, yielding better latency-BLEU tradeoff compared to HAT, state-of-the-art NAS for MT. We also achieve the SOTA performance in NAS for building memory-efficient task-agnostic BERT models, outperforming NAS-BERT and AutoDistil in various model sizes.

Mixture-of-Supernets: Verbesserung des Weight-Sharing-Supernet-Trainings mit Architektur-gesteuertem Mixture-of-Experts

Mixture-of-Supernets: Improving Weight-Sharing Supernet Training with Architecture-Routed Mixture-of-Experts

Zusammenfassung

Support