Une seule couche pour toutes les expliquer : Comprendre les activations massives dans les grands modèles de langage

Résumé

Nous étudions les origines des activations massives dans les grands modèles de langage (LLMs) et identifions une couche spécifique, nommée couche d'émergence massive (couche ME), systématiquement observée dans différentes familles de modèles, où les activations massives apparaissent pour la première fois et se propagent ensuite aux couches plus profondes via les connexions résiduelles. Nous montrons que, au sein de la couche ME, les paramètres de la RMSNorm et du FFN contribuent conjointement à l'émergence des activations massives. Une fois formée, la représentation du jeton d'activation massive reste largement invariante à travers les couches, réduisant ainsi la diversité des représentations cachées transmises au module d'attention. Motivés par cette limitation, nous proposons une méthode simple et efficace pour réduire la rigidité du jeton d'activation massive. Notre approche améliore systématiquement les performances des LLMs sur plusieurs tâches, notamment le suivi d'instructions et le raisonnement mathématique, à la fois dans des contextes sans entraînement et en ajustement fin. De plus, nous montrons que notre méthode atténue les puits d'attention en affaiblissant sélectivement leur influence, élucidant leur origine au niveau des états cachés et apportant un éclairage nouveau sur des stratégies d'atténuation fondées sur des principes.

English

We investigate the origins of massive activations in large language models (LLMs) and identify a specific layer named the Massive Emergence Layer (ME Layer), that is consistently observed across model families, where massive activations first emerge and subsequently propagate to deeper layers through residual connections. We show that, within the ME Layer both the RMSNorm and the FFN parameters jointly contribute to the emergence of massive activations. Once formed, the massive activation token representation remains largely invariant across layers, reducing the diversity of hidden representations passed to the attention module. Motivated by this limitation, we propose a simple and effective method to reduce the rigidity of the massive activation token. Our approach consistently improves LLM performance across multiple tasks, including instruction following and math reasoning, in both training free and fine tuning settings. Moreover, we show that our method mitigates attention sinks by selectively weakening their influence, elucidating their origin at the hidden state level and shedding new light on principled mitigation strategies.

Une seule couche pour toutes les expliquer : Comprendre les activations massives dans les grands modèles de langage

A Single Layer to Explain Them All:Understanding Massive Activations in Large Language Models

Résumé

Support