LayerSkip: Ermöglichen von frühzeitigem Beenden der Inferenz und selbstspekulatives DecodierenLayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding
Wir präsentieren LayerSkip, eine End-to-End-Lösung zur Beschleunigung der Inferenz großer Sprachmodelle (LLMs). Während des Trainings wenden wir zunächst Layer-Dropout an, mit niedrigen Dropout-Raten für frühere Schichten und höheren Dropout-Raten für spätere Schichten, sowie einen Early-Exit-Verlust, bei dem alle Transformer-Schichten denselben Exit teilen. Zweitens zeigen wir während der Inferenz, dass dieses Trainingsrezept die Genauigkeit des Early-Exits in früheren Schichten erhöht, ohne dem Modell zusätzliche Schichten oder Module hinzuzufügen. Drittens präsentieren wir eine neuartige selbstspekulative Decodierungslösung, bei der wir in frühen Schichten aussteigen und mit den verbleibenden Schichten des Modells überprüfen und korrigieren. Unser vorgeschlagener selbstspekulativer Decodierungsansatz hat einen geringeren Speicherbedarf als andere spekulative Decodierungsansätze und profitiert von gemeinsam genutzten Berechnungen und Aktivierungen der Entwurfs- und Verifikationsphasen. Wir führen Experimente mit verschiedenen Llama-Modellgrößen und verschiedenen Arten des Trainings durch: Pretraining von Grund auf, kontinuierliches Pretraining, Feinabstimmung auf spezifische Datendomänen und Feinabstimmung auf spezifische Aufgaben. Wir implementieren unsere Inferenzlösung und zeigen Beschleunigungen von bis zu 2,16-fach bei der Zusammenfassung von CNN/DM-Dokumenten, 1,82-fach beim Codieren und 2,0-fach bei der TOPv2-semantischen Parsing-Aufgabe. Wir stellen unseren Code und Checkpoints unter https://github.com/facebookresearch/LayerSkip als Open Source zur Verfügung.