Saut de couche adaptatif dans les LLM pré-entraînés

papers.abstract

Diverses méthodes de saut de couches ont été proposées pour accélérer la génération de tokens dans les grands modèles de langage (LLM). Cependant, elles ont négligé une question fondamentale : Comment les exigences computationnelles varient-elles selon les tokens générés ? Dans ce travail, nous présentons FlexiDepth, une méthode qui ajuste dynamiquement le nombre de couches Transformer utilisées lors de la génération de texte. En intégrant un routeur et un adaptateur plug-in, FlexiDepth permet un saut de couches adaptatif dans les LLM sans modifier leurs paramètres originaux. L'introduction de FlexiDepth au modèle Llama-3-8B permet de sauter 8 couches sur 32, tout en maintenant une performance de référence de 100 %. Les résultats expérimentaux avec FlexiDepth montrent que les exigences computationnelles dans les LLM varient considérablement selon le type de token. Plus précisément, la génération de tokens répétitifs ou de phrases fixes nécessite moins de couches, tandis que la production de tokens impliquant des calculs ou une incertitude élevée en nécessite davantage. Fait intéressant, ce modèle d'allocation adaptative correspond à l'intuition humaine. Pour faire avancer la recherche dans ce domaine, nous avons rendu FlexiDepth open source ainsi qu'un ensemble de données documentant les schémas d'allocation de couches de FlexiDepth pour une exploration future.

English

Various layer-skipping methods have been proposed to accelerate token generation in large language models (LLMs). However, they have overlooked a fundamental question: How do computational demands vary across the generation of different tokens? In this work, we introduce FlexiDepth, a method that dynamically adjusts the number of Transformer layers used in text generation. By incorporating a plug-in router and adapter, FlexiDepth enables adaptive layer-skipping in LLMs without modifying their original parameters. Introducing FlexiDepth to Llama-3-8B model achieves layer skipping of 8 layers out of 32, and meanwhile maintains the full 100\% benchmark performance. Experimental results with FlexiDepth demonstrate that computational demands in LLMs significantly vary based on token type. Specifically, generating repetitive tokens or fixed phrases requires fewer layers, whereas producing tokens involving computation or high uncertainty requires more layers. Interestingly, this adaptive allocation pattern aligns with human intuition. To advance research in this area, we open sourced FlexiDepth and a dataset documenting FlexiDepth's layer allocation patterns for future exploration.

Saut de couche adaptatif dans les LLM pré-entraînés

Adaptive Layer-skipping in Pre-trained LLMs

papers.abstract

Support