Enchevêtrement artificiel dans le réglage fin des grands modèles de langage
Artificial Entanglement in the Fine-Tuning of Large Language Models
January 11, 2026
papers.authors: Min Chen, Zihan Wang, Canyu Chen, Zeguan Wu, Manling Li, Junyu Liu
cs.AI
papers.abstract
Les grands modèles de langage (LLM) peuvent être adaptés à de nouvelles tâches grâce à des méthodes de réglage fin à efficacité de paramètres (PEFT) qui ne modifient qu'un petit nombre de paramètres entraînables, souvent via des mises à jour de faible rang. Dans ce travail, nous adoptons une perspective inspirée de la théorie de l'information quantique pour comprendre leur efficacité. De ce point de vue, les paramétrisations de faible rang correspondent naturellement à des représentations de type États Produit de Matrices (MPS) de faible dimension, qui permettent des caractérisations de la structure des paramètres basées sur l'intrication. Ainsi, nous définissons et mesurons l'« Intrication Artificielle », définie comme l'entropie d'intrication des paramètres dans les réseaux de neurones artificiels (en particulier les LLMs). Nous étudions d'abord la méthode PEFT représentative qu'est l'adaptation de faible rang (LoRA), ainsi que le réglage fin complet (FFT), en utilisant des modèles LLaMA aux échelles 1B et 8B entraînés sur les ensembles de données Tulu3 et OpenThoughts3, et découvrons : (i) L'intrication artificielle interne dans les mises à jour des matrices de projection de requêtes et de valeurs dans LoRA suit une loi volumique avec une suppression centrale (appelée « Vallée de l'Intrication »), sensible aux hyperparamètres et distincte de celle observée en FFT ; (ii) L'intrication artificielle externe dans les matrices d'attention, correspondant aux corrélations jeton-jeton dans l'espace de représentation, suit une loi surfacique avec des corrections logarithmiques et reste robuste aux hyperparamètres de LoRA et aux étapes d'entraînement. En établissant un parallèle avec le théorème de l'absence de chevelure (No-Hair Theorem) en physique des trous noirs, nous proposons que bien que LoRA et FFT induisent des signatures d'intrication interne distinctes, ces différences ne se manifestent pas dans les sorties d'attention, suggérant une propriété de type « absence de chevelure » qui explique l'efficacité des mises à jour de faible rang. Nous apportons également un support théorique basé sur la théorie des matrices aléatoires et étendons notre analyse à une méthode PEFT d'Adaptation MPS, qui présente des comportements qualitativement similaires.
English
Large language models (LLMs) can be adapted to new tasks using parameter-efficient fine-tuning (PEFT) methods that modify only a small number of trainable parameters, often through low-rank updates. In this work, we adopt a quantum-information-inspired perspective to understand their effectiveness. From this perspective, low-rank parameterizations naturally correspond to low-dimensional Matrix Product States (MPS) representations, which enable entanglement-based characterizations of parameter structure. Thereby, we term and measure "Artificial Entanglement", defined as the entanglement entropy of the parameters in artificial neural networks (in particular the LLMs). We first study the representative low-rank adaptation (LoRA) PEFT method, alongside full fine-tuning (FFT), using LLaMA models at the 1B and 8B scales trained on the Tulu3 and OpenThoughts3 datasets, and uncover: (i) Internal artificial entanglement in the updates of query and value projection matrices in LoRA follows a volume law with a central suppression (termed as the "Entanglement Valley"), which is sensitive to hyper-parameters and is distinct from that in FFT; (ii) External artificial entanglement in attention matrices, corresponding to token-token correlations in representation space, follows an area law with logarithmic corrections and remains robust to LoRA hyper-parameters and training steps. Drawing a parallel to the No-Hair Theorem in black hole physics, we propose that although LoRA and FFT induce distinct internal entanglement signatures, such differences do not manifest in the attention outputs, suggesting a "no-hair" property that results in the effectiveness of low rank updates. We further provide theoretical support based on random matrix theory, and extend our analysis to an MPS Adaptation PEFT method, which exhibits qualitatively similar behaviors.