ChatPaper.aiChatPaper

Крупные языковые модели представляют собой локально линейные отображения.

Large Language Models are Locally Linear Mappings

May 30, 2025
Авторы: James R. Golden
cs.AI

Аннотация

Мы демонстрируем, что операции вывода нескольких открытых крупных языковых моделей (LLM) могут быть отображены на точно эквивалентную линейную систему для входной последовательности без изменения весов модели или искажения выходных предсказаний. Расширяя методы, применяемые в моделях диффузии изображений, которые проявляют локальную или кусочно-линейную природу, мы стратегически изменяем вычисление градиента относительно заданной входной последовательности для предсказания следующего токена таким образом, что якобиан модели почти точно воспроизводит прямое предсказание с помощью линейной системы. Мы демонстрируем этот подход на различных моделях (Llama 3, Gemma 3, Qwen 3, Phi 4, Mistral Ministral и OLMo 2, вплоть до Llama 3.3 70B Q4) и показываем через сингулярное разложение отделенного якобиана, что эти LLM работают в крайне низкоразмерных подпространствах, где многие из крупнейших сингулярных векторов декодируются в концепции, связанные с наиболее вероятным выходным токеном. Этот подход также позволяет нам исследовать работу каждого последующего слоя (и его компонентов внимания и MLP) как почти точных линейных систем и наблюдать возникновение семантических концепций. Несмотря на их выразительную мощность и глобальную нелинейность, современные LLM могут быть интерпретированы через почти точные локально линейные декомпозиции, которые предоставляют понимание их внутренних представлений и раскрывают интерпретируемые семантические структуры в процессе предсказания следующего токена.
English
We demonstrate that the inference operations of several open-weight large language models (LLMs) can be mapped to an exactly equivalent linear system for an input sequence without modifying the model weights or altering output predictions. Extending techniques from image diffusion models that exhibit local or piecewise linearity, we strategically alter the gradient computation with respect to a given input sequence for a next-token prediction such that the Jacobian of the model nearly exactly reproduces the forward prediction with a linear system. We demonstrate this approach across models (Llama 3, Gemma 3, Qwen 3, Phi 4, Mistral Ministral and OLMo 2, up to Llama 3.3 70B Q4) and show through the singular value decomposition of the detached Jacobian that these LLMs operate in extremely low-dimensional subspaces where many of the largest singular vectors decode to concepts related to the most-likely output token. This approach also allows us to examine the operation of each successive layer (and its attention and MLP components) as nearly-exact linear systems and observe the emergence of semantic concepts. Despite their expressive power and global nonlinearity, modern LLMs can be interpreted through nearly-exact locally linear decompositions that provide insights into their internal representations and reveal interpretable semantic structures in the next-token prediction process.
PDF114June 2, 2025