Saut de couche adaptatif dans les LLM pré-entraînés
Adaptive Layer-skipping in Pre-trained LLMs
March 31, 2025
Auteurs: Xuan Luo, Weizhi Wang, Xifeng Yan
cs.AI
Résumé
Diverses méthodes de saut de couches ont été proposées pour accélérer la génération de tokens dans les grands modèles de langage (LLM). Cependant, elles ont négligé une question fondamentale : Comment les exigences computationnelles varient-elles selon les tokens générés ? Dans ce travail, nous présentons FlexiDepth, une méthode qui ajuste dynamiquement le nombre de couches Transformer utilisées lors de la génération de texte. En intégrant un routeur et un adaptateur plug-in, FlexiDepth permet un saut de couches adaptatif dans les LLM sans modifier leurs paramètres originaux. L'introduction de FlexiDepth au modèle Llama-3-8B permet de sauter 8 couches sur 32, tout en maintenant une performance de référence de 100 %. Les résultats expérimentaux avec FlexiDepth montrent que les exigences computationnelles dans les LLM varient considérablement selon le type de token. Plus précisément, la génération de tokens répétitifs ou de phrases fixes nécessite moins de couches, tandis que la production de tokens impliquant des calculs ou une incertitude élevée en nécessite davantage. Fait intéressant, ce modèle d'allocation adaptative correspond à l'intuition humaine. Pour faire avancer la recherche dans ce domaine, nous avons rendu FlexiDepth open source ainsi qu'un ensemble de données documentant les schémas d'allocation de couches de FlexiDepth pour une exploration future.
English
Various layer-skipping methods have been proposed to accelerate token
generation in large language models (LLMs). However, they have overlooked a
fundamental question: How do computational demands vary across the generation
of different tokens? In this work, we introduce FlexiDepth, a method that
dynamically adjusts the number of Transformer layers used in text generation.
By incorporating a plug-in router and adapter, FlexiDepth enables adaptive
layer-skipping in LLMs without modifying their original parameters. Introducing
FlexiDepth to Llama-3-8B model achieves layer skipping of 8 layers out of 32,
and meanwhile maintains the full 100\% benchmark performance. Experimental
results with FlexiDepth demonstrate that computational demands in LLMs
significantly vary based on token type. Specifically, generating repetitive
tokens or fixed phrases requires fewer layers, whereas producing tokens
involving computation or high uncertainty requires more layers. Interestingly,
this adaptive allocation pattern aligns with human intuition. To advance
research in this area, we open sourced FlexiDepth and a dataset documenting
FlexiDepth's layer allocation patterns for future exploration.Summary
AI-Generated Summary