ChatPaper.aiChatPaper

Een Verfijnde Analyse van Massale Activaties in LLM's

A Refined Analysis of Massive Activations in LLMs

March 28, 2025
Auteurs: Louis Owen, Nilabhra Roy Chowdhury, Abhay Kumar, Fabian Güra
cs.AI

Samenvatting

Gedeeltelijk gemotiveerd door hun relevantie voor training met lage precisie en kwantisatie, zijn massieve activaties in grote taalmodellen (LLMs) recentelijk naar voren gekomen als een onderwerp van interesse. Bestaande analyses zijn echter beperkt in omvang, en de generaliseerbaarheid over verschillende architecturen is onduidelijk. Dit artikel helpt enkele van deze hiaten aan te pakken door een analyse uit te voeren van massieve activaties in een breed scala aan LLMs, inclusief zowel GLU-gebaseerde als niet-GLU-gebaseerde architecturen. Onze bevindingen dagen verschillende eerdere aannames uit, waarvan de belangrijkste zijn: (1) niet alle massieve activaties zijn schadelijk, d.w.z. het onderdrukken ervan leidt niet tot een explosie van perplexiteit of een ineenstorting van de prestaties op downstream taken; (2) voorgestelde mitigatiestrategieën zoals Attention KV bias zijn modelspecifiek en in bepaalde gevallen niet effectief. We onderzoeken daarom nieuwe hybride mitigatiestrategieën; in het bijzonder het combineren van Target Variance Rescaling (TVR) met Attention KV bias of Dynamic Tanh (DyT) blijkt succesvol in het balanceren van de mitigatie van massieve activaties met behoud van downstream modelprestaties in de door ons onderzochte scenario's. Onze code is beschikbaar op: https://github.com/bluorion-com/refine_massive_activations.
English
Motivated in part by their relevance for low-precision training and quantization, massive activations in large language models (LLMs) have recently emerged as a topic of interest. However, existing analyses are limited in scope, and generalizability across architectures is unclear. This paper helps address some of these gaps by conducting an analysis of massive activations across a broad range of LLMs, including both GLU-based and non-GLU-based architectures. Our findings challenge several prior assumptions, most importantly: (1) not all massive activations are detrimental, i.e. suppressing them does not lead to an explosion of perplexity or a collapse in downstream task performance; (2) proposed mitigation strategies such as Attention KV bias are model-specific and ineffective in certain cases. We consequently investigate novel hybrid mitigation strategies; in particular pairing Target Variance Rescaling (TVR) with Attention KV bias or Dynamic Tanh (DyT) successfully balances the mitigation of massive activations with preserved downstream model performance in the scenarios we investigated. Our code is available at: https://github.com/bluorion-com/refine_massive_activations.

Summary

AI-Generated Summary

PDF143March 31, 2025