LayerSkip : Permettant l'inférence à sortie précoce et le décodage auto-spéculatifLayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding
Nous présentons LayerSkip, une solution de bout en bout pour accélérer l'inférence des grands modèles de langage (LLM). Premièrement, lors de l'entraînement, nous appliquons un dropout par couche, avec des taux de dropout faibles pour les premières couches et plus élevés pour les dernières couches, ainsi qu'une perte de sortie précoce où toutes les couches du transformateur partagent la même sortie. Deuxièmement, lors de l'inférence, nous montrons que cette méthode d'entraînement augmente la précision des sorties précoces dans les premières couches, sans ajouter de couches ou modules auxiliaires au modèle. Troisièmement, nous proposons une nouvelle solution de décodage auto-spéculatif où nous sortons aux premières couches et vérifions et corrigons avec les couches restantes du modèle. Notre approche de décodage auto-spéculatif a une empreinte mémoire plus faible que les autres méthodes de décodage spéculatif et bénéficie du partage des calculs et des activations entre les étapes de brouillon et de vérification. Nous menons des expériences sur différentes tailles de modèles Llama avec différents types d'entraînement : pré-entraînement à partir de zéro, pré-entraînement continu, fine-tuning sur un domaine de données spécifique, et fine-tuning sur une tâche spécifique. Nous implémentons notre solution d'inférence et montrons des accélérations allant jusqu'à 2,16x sur la tâche de résumé de documents CNN/DM, 1,82x sur le codage, et 2,0x sur la tâche d'analyse sémantique TOPv2. Nous mettons notre code et nos checkpoints en open source à l'adresse https://github.com/facebookresearch/LayerSkip.