Künstliche Verschränkung bei der Feinabstimmung großer Sprachmodelle
Artificial Entanglement in the Fine-Tuning of Large Language Models
January 11, 2026
papers.authors: Min Chen, Zihan Wang, Canyu Chen, Zeguan Wu, Manling Li, Junyu Liu
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) können mittels parameter-effizientem Feinabgleich (PEFT) an neue Aufgaben angepasst werden, wobei nur eine geringe Anzahl trainierbarer Parameter modifiziert wird, häufig durch Low-Rank-Updates. In dieser Arbeit nehmen wir eine quanteninformationstheoretisch inspirierte Perspektive ein, um deren Wirksamkeit zu verstehen. Aus dieser Perspektive entsprechen Low-Rank-Parametrisierungen natürlich niedrigdimensionalen Matrix Product States (MPS)-Darstellungen, die verschränkungsbasierte Charakterisierungen der Parameterstruktur ermöglichen. Daher bezeichnen und messen wir "Künstliche Verschränkung", definiert als die Verschränkungsentropie der Parameter in künstlichen neuronalen Netzen (insbesondere in LLMs). Wir untersuchen zunächst die repräsentative Low-Rank-Adaptation (LoRA)-PEFT-Methode zusammen mit vollständigem Feinabgleich (FFT) an LLaMA-Modellen der Größenordnungen 1B und 8B, die auf den Datensätzen Tulu3 und OpenThoughts3 trainiert wurden, und decken auf: (i) Die interne künstliche Verschränkung in den Updates der Query- und Value-Projektionsmatrizen in LoRA folgt einem Volumengesetz mit einer zentralen Unterdrückung (bezeichnet als "Verschränkungstal"), das hyperparameterempfindlich ist und sich von dem bei FFT unterscheidet; (ii) Die externe künstliche Verschränkung in Attention-Matrizen, die Token-Token-Korrelationen im Repräsentationsraum entspricht, folgt einem Flächengesetz mit logarithmischen Korrekturen und bleibt robust gegenüber LoRA-Hyperparametern und Trainingsschritten. In Anlehnung an das No-Hair-Theorem aus der Schwarze-Loch-Physik schlagen wir vor, dass, obwohl LoRA und FFT unterschiedliche interne Verschränkungssignaturen induzieren, sich solche Unterschiede nicht in den Attention-Ausgaben manifestieren, was auf eine "No-Hair"-Eigenschaft hindeutet, die die Wirksamkeit von Low-Rank-Updates erklärt. Wir liefern ferner theoretische Unterstützung auf Basis der Theorie zufälliger Matrizen und erweitern unsere Analyse auf eine MPS-Adaptation-PEFT-Methode, die qualitativ ähnliche Verhaltensweisen zeigt.
English
Large language models (LLMs) can be adapted to new tasks using parameter-efficient fine-tuning (PEFT) methods that modify only a small number of trainable parameters, often through low-rank updates. In this work, we adopt a quantum-information-inspired perspective to understand their effectiveness. From this perspective, low-rank parameterizations naturally correspond to low-dimensional Matrix Product States (MPS) representations, which enable entanglement-based characterizations of parameter structure. Thereby, we term and measure "Artificial Entanglement", defined as the entanglement entropy of the parameters in artificial neural networks (in particular the LLMs). We first study the representative low-rank adaptation (LoRA) PEFT method, alongside full fine-tuning (FFT), using LLaMA models at the 1B and 8B scales trained on the Tulu3 and OpenThoughts3 datasets, and uncover: (i) Internal artificial entanglement in the updates of query and value projection matrices in LoRA follows a volume law with a central suppression (termed as the "Entanglement Valley"), which is sensitive to hyper-parameters and is distinct from that in FFT; (ii) External artificial entanglement in attention matrices, corresponding to token-token correlations in representation space, follows an area law with logarithmic corrections and remains robust to LoRA hyper-parameters and training steps. Drawing a parallel to the No-Hair Theorem in black hole physics, we propose that although LoRA and FFT induce distinct internal entanglement signatures, such differences do not manifest in the attention outputs, suggesting a "no-hair" property that results in the effectiveness of low rank updates. We further provide theoretical support based on random matrix theory, and extend our analysis to an MPS Adaptation PEFT method, which exhibits qualitatively similar behaviors.