Eine einzelne Schicht, um sie alle zu erklären: Massive Aktivierungen in großen Sprachmodellen verstehen

Zusammenfassung

Wir untersuchen die Ursprünge massiver Aktivierungen in großen Sprachmodellen (LLMs) und identifizieren eine spezifische Schicht, die als Massive Emergence Layer (ME Layer) bezeichnet wird und konsistent über Modellfamilien hinweg beobachtet wird, in der massive Aktivierungen erstmals auftreten und anschließend über Residualverbindungen in tiefere Schichten propagieren. Wir zeigen, dass innerhalb der ME Layer sowohl die RMSNorm- als auch die FFN-Parameter gemeinsam zur Entstehung massiver Aktivierungen beitragen. Einmal gebildet, bleibt die Repräsentation des massiven Aktivierungstokens über Schichten hinweg weitgehend invariant, was die Diversität der an das Aufmerksamkeitsmodul weitergegebenen versteckten Repräsentationen verringert. Motiviert durch diese Einschränkung schlagen wir eine einfache und effektive Methode vor, um die Starrheit des massiven Aktivierungstokens zu reduzieren. Unser Ansatz verbessert konsistent die Leistung von LLMs in mehreren Aufgabenbereichen, einschließlich des Befolgens von Anweisungen und mathematischen Denkens, sowohl in trainingsfreien als auch in Feinabstimmungsumgebungen. Darüber hinaus zeigen wir, dass unsere Methode Aufmerksamkeitssenken abschwächt, indem sie deren Einfluss selektiv verringert, ihren Ursprung auf der Ebene der versteckten Zustände beleuchtet und neue Einsichten in prinzipienbasierte Minderungsstrategien liefert.

English

We investigate the origins of massive activations in large language models (LLMs) and identify a specific layer named the Massive Emergence Layer (ME Layer), that is consistently observed across model families, where massive activations first emerge and subsequently propagate to deeper layers through residual connections. We show that, within the ME Layer both the RMSNorm and the FFN parameters jointly contribute to the emergence of massive activations. Once formed, the massive activation token representation remains largely invariant across layers, reducing the diversity of hidden representations passed to the attention module. Motivated by this limitation, we propose a simple and effective method to reduce the rigidity of the massive activation token. Our approach consistently improves LLM performance across multiple tasks, including instruction following and math reasoning, in both training free and fine tuning settings. Moreover, we show that our method mitigates attention sinks by selectively weakening their influence, elucidating their origin at the hidden state level and shedding new light on principled mitigation strategies.

Eine einzelne Schicht, um sie alle zu erklären: Massive Aktivierungen in großen Sprachmodellen verstehen

A Single Layer to Explain Them All:Understanding Massive Activations in Large Language Models

Zusammenfassung

Support