Große Sprachmodelle sind lokal lineare Abbildungen.
Large Language Models are Locally Linear Mappings
May 30, 2025
Autoren: James R. Golden
cs.AI
Zusammenfassung
Wir zeigen, dass die Inferenzoperationen mehrerer Open-Weight großer Sprachmodelle (LLMs) auf ein exakt äquivalentes lineares System für eine Eingabesequenz abgebildet werden können, ohne die Modellgewichte zu verändern oder die Ausgangsvorhersagen zu beeinflussen. Indem wir Techniken aus Bilddiffusionsmodellen, die lokale oder stückweise Linearität aufweisen, erweitern, verändern wir strategisch die Gradientenberechnung in Bezug auf eine gegebene Eingabesequenz für eine Next-Token-Vorhersage, sodass die Jacobi-Matrix des Modells die Vorwärtsvorhersage nahezu exakt mit einem linearen System reproduziert. Wir demonstrieren diesen Ansatz über verschiedene Modelle (Llama 3, Gemma 3, Qwen 3, Phi 4, Mistral Ministral und OLMo 2, bis zu Llama 3.3 70B Q4) und zeigen durch die Singulärwertzerlegung der abgetrennten Jacobi-Matrix, dass diese LLMs in extrem niedrigdimensionalen Unterräumen operieren, in denen viele der größten Singulärvektoren Konzepte dekodieren, die mit dem wahrscheinlichsten Ausgabetoken zusammenhängen. Dieser Ansatz ermöglicht es uns auch, die Operation jeder aufeinanderfolgenden Schicht (sowie ihrer Aufmerksamkeits- und MLP-Komponenten) als nahezu exakte lineare Systeme zu untersuchen und die Entstehung semantischer Konzepte zu beobachten. Trotz ihrer Ausdruckskraft und globalen Nichtlinearität können moderne LLMs durch nahezu exakte lokal lineare Zerlegungen interpretiert werden, die Einblicke in ihre internen Repräsentationen bieten und interpretierbare semantische Strukturen im Next-Token-Vorhersageprozess aufdecken.
English
We demonstrate that the inference operations of several open-weight large
language models (LLMs) can be mapped to an exactly equivalent linear system for
an input sequence without modifying the model weights or altering output
predictions. Extending techniques from image diffusion models that exhibit
local or piecewise linearity, we strategically alter the gradient computation
with respect to a given input sequence for a next-token prediction such that
the Jacobian of the model nearly exactly reproduces the forward prediction with
a linear system. We demonstrate this approach across models (Llama 3, Gemma 3,
Qwen 3, Phi 4, Mistral Ministral and OLMo 2, up to Llama 3.3 70B Q4) and show
through the singular value decomposition of the detached Jacobian that these
LLMs operate in extremely low-dimensional subspaces where many of the largest
singular vectors decode to concepts related to the most-likely output token.
This approach also allows us to examine the operation of each successive layer
(and its attention and MLP components) as nearly-exact linear systems and
observe the emergence of semantic concepts. Despite their expressive power and
global nonlinearity, modern LLMs can be interpreted through nearly-exact
locally linear decompositions that provide insights into their internal
representations and reveal interpretable semantic structures in the next-token
prediction process.