Les grands modèles de langage sont des applications linéaires locales.
Large Language Models are Locally Linear Mappings
May 30, 2025
Auteurs: James R. Golden
cs.AI
Résumé
Nous démontrons que les opérations d'inférence de plusieurs grands modèles de langage (LLMs) à poids ouverts peuvent être mappées à un système linéaire exactement équivalent pour une séquence d'entrée, sans modifier les poids du modèle ni altérer les prédictions de sortie. En étendant des techniques issues des modèles de diffusion d'images qui présentent une linéarité locale ou par morceaux, nous modifions stratégiquement le calcul du gradient par rapport à une séquence d'entrée donnée pour une prédiction de token suivant, de sorte que le Jacobien du modèle reproduit presque exactement la prédiction avant avec un système linéaire. Nous illustrons cette approche sur plusieurs modèles (Llama 3, Gemma 3, Qwen 3, Phi 4, Mistral Ministral et OLMo 2, jusqu'à Llama 3.3 70B Q4) et montrons, à travers la décomposition en valeurs singulières du Jacobien détaché, que ces LLMs opèrent dans des sous-espaces de très faible dimension où de nombreux vecteurs singuliers les plus grands décodent des concepts liés au token de sortie le plus probable. Cette approche nous permet également d'examiner le fonctionnement de chaque couche successive (ainsi que ses composants d'attention et MLP) comme des systèmes linéaires presque exacts et d'observer l'émergence de concepts sémantiques. Malgré leur puissance expressive et leur non-linéarité globale, les LLMs modernes peuvent être interprétés à travers des décompositions localement linéaires presque exactes qui fournissent des insights sur leurs représentations internes et révèlent des structures sémantiques interprétables dans le processus de prédiction de token suivant.
English
We demonstrate that the inference operations of several open-weight large
language models (LLMs) can be mapped to an exactly equivalent linear system for
an input sequence without modifying the model weights or altering output
predictions. Extending techniques from image diffusion models that exhibit
local or piecewise linearity, we strategically alter the gradient computation
with respect to a given input sequence for a next-token prediction such that
the Jacobian of the model nearly exactly reproduces the forward prediction with
a linear system. We demonstrate this approach across models (Llama 3, Gemma 3,
Qwen 3, Phi 4, Mistral Ministral and OLMo 2, up to Llama 3.3 70B Q4) and show
through the singular value decomposition of the detached Jacobian that these
LLMs operate in extremely low-dimensional subspaces where many of the largest
singular vectors decode to concepts related to the most-likely output token.
This approach also allows us to examine the operation of each successive layer
(and its attention and MLP components) as nearly-exact linear systems and
observe the emergence of semantic concepts. Despite their expressive power and
global nonlinearity, modern LLMs can be interpreted through nearly-exact
locally linear decompositions that provide insights into their internal
representations and reveal interpretable semantic structures in the next-token
prediction process.