ChatPaper.aiChatPaper

Une analyse approfondie des activations massives dans les modèles de langage de grande taille

A Refined Analysis of Massive Activations in LLMs

March 28, 2025
Auteurs: Louis Owen, Nilabhra Roy Chowdhury, Abhay Kumar, Fabian Güra
cs.AI

Résumé

Motivés en partie par leur pertinence pour l'entraînement en faible précision et la quantification, les activations massives dans les grands modèles de langage (LLMs) ont récemment émergé comme un sujet d'intérêt. Cependant, les analyses existantes sont limitées en portée, et la généralisabilité à travers les architectures reste incertaine. Cet article contribue à combler certaines de ces lacunes en menant une analyse des activations massives sur un large éventail de LLMs, incluant à la fois des architectures basées sur GLU et non basées sur GLU. Nos résultats remettent en question plusieurs hypothèses antérieures, notamment : (1) toutes les activations massives ne sont pas néfastes, c'est-à-dire que leur suppression ne conduit pas à une explosion de la perplexité ou à un effondrement des performances sur les tâches en aval ; (2) les stratégies d'atténuation proposées telles que le biais Attention KV sont spécifiques au modèle et inefficaces dans certains cas. Nous investiguons par conséquent de nouvelles stratégies d'atténuation hybrides ; en particulier, l'association du Rééchelonnage de Variance Cible (TVR) avec le biais Attention KV ou la fonction Dynamic Tanh (DyT) permet de concilier efficacement l'atténuation des activations massives avec la préservation des performances du modèle en aval dans les scénarios étudiés. Notre code est disponible à l'adresse : https://github.com/bluorion-com/refine_massive_activations.
English
Motivated in part by their relevance for low-precision training and quantization, massive activations in large language models (LLMs) have recently emerged as a topic of interest. However, existing analyses are limited in scope, and generalizability across architectures is unclear. This paper helps address some of these gaps by conducting an analysis of massive activations across a broad range of LLMs, including both GLU-based and non-GLU-based architectures. Our findings challenge several prior assumptions, most importantly: (1) not all massive activations are detrimental, i.e. suppressing them does not lead to an explosion of perplexity or a collapse in downstream task performance; (2) proposed mitigation strategies such as Attention KV bias are model-specific and ineffective in certain cases. We consequently investigate novel hybrid mitigation strategies; in particular pairing Target Variance Rescaling (TVR) with Attention KV bias or Dynamic Tanh (DyT) successfully balances the mitigation of massive activations with preserved downstream model performance in the scenarios we investigated. Our code is available at: https://github.com/bluorion-com/refine_massive_activations.

Summary

AI-Generated Summary

PDF143March 31, 2025