Mixture-of-Supernets: Verbesserung des Weight-Sharing-Supernet-Trainings mit Architektur-gesteuertem Mixture-of-Experts
Mixture-of-Supernets: Improving Weight-Sharing Supernet Training with Architecture-Routed Mixture-of-Experts
June 8, 2023
Autoren: Ganesh Jawahar, Haichuan Yang, Yunyang Xiong, Zechun Liu, Dilin Wang, Fei Sun, Meng Li, Aasish Pappu, Barlas Oguz, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, Raghuraman Krishnamoorthi, Vikas Chandra
cs.AI
Zusammenfassung
Das Gewichteteilungs-Supernetz ist zu einem wesentlichen Bestandteil für die Leistungsschätzung in den modernsten (State-of-the-Art, SOTA) Frameworks für die Suche nach neuronalen Architekturen (Neural Architecture Search, NAS) geworden. Obwohl das Supernetz verschiedene Teilnetzwerke direkt ohne erneutes Training generieren kann, gibt es keine Garantie für die Qualität dieser Teilnetzwerke aufgrund der Gewichteteilung. Bei NLP-Aufgaben wie maschineller Übersetzung und vortrainiertem Sprachmodellieren beobachten wir, dass bei gleicher Modellarchitektur eine große Leistungslücke zwischen dem Supernetz und dem Training von Grund auf besteht. Daher kann das Supernetz nicht direkt verwendet werden, und ein erneutes Training ist nach der Ermittlung der optimalen Architekturen notwendig.
In dieser Arbeit schlagen wir Mixture-of-Supernets vor, eine verallgemeinerte Formulierung des Supernetzes, bei der Mixture-of-Experts (MoE) eingesetzt wird, um die Ausdruckskraft des Supernetzmodells mit vernachlässigbarem Trainingsaufwand zu steigern. Auf diese Weise teilen sich verschiedene Teilnetzwerke die Modellgewichte nicht direkt, sondern über einen architekturbasierten Routing-Mechanismus. Dadurch werden die Modellgewichte verschiedener Teilnetzwerke auf ihre spezifischen Architekturen zugeschnitten, und die Gewichtsgenerierung wird durch Gradientenabstieg gelernt. Im Vergleich zu bestehenden Gewichteteilungs-Supernetzen für NLP kann unsere Methode die Nachtrainingszeit minimieren und die Trainingseffizienz erheblich verbessern. Darüber hinaus erreicht die vorgeschlagene Methode die SOTA-Leistung in der NAS für den Aufbau schneller maschineller Übersetzungsmodelle und bietet ein besseres Latenz-BLEU-Verhältnis im Vergleich zu HAT, dem State-of-the-Art NAS für MT. Wir erreichen auch die SOTA-Leistung in der NAS für den Aufbau speichereffizienter, aufgabenunabhängiger BERT-Modelle und übertreffen NAS-BERT und AutoDistil in verschiedenen Modellgrößen.
English
Weight-sharing supernet has become a vital component for performance
estimation in the state-of-the-art (SOTA) neural architecture search (NAS)
frameworks. Although supernet can directly generate different subnetworks
without retraining, there is no guarantee for the quality of these subnetworks
because of weight sharing. In NLP tasks such as machine translation and
pre-trained language modeling, we observe that given the same model
architecture, there is a large performance gap between supernet and training
from scratch. Hence, supernet cannot be directly used and retraining is
necessary after finding the optimal architectures.
In this work, we propose mixture-of-supernets, a generalized supernet
formulation where mixture-of-experts (MoE) is adopted to enhance the expressive
power of the supernet model, with negligible training overhead. In this way,
different subnetworks do not share the model weights directly, but through an
architecture-based routing mechanism. As a result, model weights of different
subnetworks are customized towards their specific architectures and the weight
generation is learned by gradient descent. Compared to existing weight-sharing
supernet for NLP, our method can minimize the retraining time, greatly
improving training efficiency. In addition, the proposed method achieves the
SOTA performance in NAS for building fast machine translation models, yielding
better latency-BLEU tradeoff compared to HAT, state-of-the-art NAS for MT. We
also achieve the SOTA performance in NAS for building memory-efficient
task-agnostic BERT models, outperforming NAS-BERT and AutoDistil in various
model sizes.