Entrelazamiento Artificial en el Ajuste Fino de Modelos de Lenguaje a Gran Escala
Artificial Entanglement in the Fine-Tuning of Large Language Models
January 11, 2026
Autores: Min Chen, Zihan Wang, Canyu Chen, Zeguan Wu, Manling Li, Junyu Liu
cs.AI
Resumen
Los modelos de lenguaje grandes (LLM) pueden adaptarse a nuevas tareas mediante métodos de ajuste fino eficiente en parámetros (PEFT) que modifican solo un pequeño número de parámetros entrenables, frecuentemente a través de actualizaciones de bajo rango. En este trabajo, adoptamos una perspectiva inspirada en la teoría de la información cuántica para comprender su efectividad. Desde esta perspectiva, las parametrizaciones de bajo rango corresponden naturalmente a representaciones de Estados de Producto Matricial (MPS) de baja dimensionalidad, las cuales permiten caracterizaciones de la estructura de parámetros basadas en entrelazamiento. En consecuencia, denominamos y medimos el "Entrelazamiento Artificial", definido como la entropía de entrelazamiento de los parámetros en las redes neuronales artificiales (en particular, los LLM). Primero estudiamos el método PEFT representativo de adaptación de bajo rango (LoRA), junto con el ajuste fino completo (FFT), utilizando modelos LLaMA a escalas de 1B y 8B entrenados en los conjuntos de datos Tulu3 y OpenThoughts3, y descubrimos: (i) El entrelazamiento artificial interno en las actualizaciones de las matrices de proyección de consulta y valor en LoRA sigue una ley de volumen con una supresión central (denominada "Valle de Entrelazamiento"), la cual es sensible a los hiperparámetros y es distinta a la observada en FFT; (ii) El entrelazamiento artificial externo en las matrices de atención, correspondiente a las correlaciones token-token en el espacio de representación, sigue una ley de área con correcciones logarítmicas y se mantiene robusto frente a los hiperparámetros de LoRA y los pasos de entrenamiento. Estableciendo un paralelismo con el Teorema de la No-Pelambría en la física de agujeros negros, proponemos que, aunque LoRA y FFT inducen firmas de entrelazamiento interno distintas, tales diferencias no se manifiestan en las salidas de atención, sugiriendo una propiedad de "no-pelambría" que resulta en la efectividad de las actualizaciones de bajo rango. Además, proporcionamos soporte teórico basado en la teoría de matrices aleatorias y extendemos nuestro análisis a un método PEFT de Adaptación MPS, el cual exhibe comportamientos cualitativamente similares.
English
Large language models (LLMs) can be adapted to new tasks using parameter-efficient fine-tuning (PEFT) methods that modify only a small number of trainable parameters, often through low-rank updates. In this work, we adopt a quantum-information-inspired perspective to understand their effectiveness. From this perspective, low-rank parameterizations naturally correspond to low-dimensional Matrix Product States (MPS) representations, which enable entanglement-based characterizations of parameter structure. Thereby, we term and measure "Artificial Entanglement", defined as the entanglement entropy of the parameters in artificial neural networks (in particular the LLMs). We first study the representative low-rank adaptation (LoRA) PEFT method, alongside full fine-tuning (FFT), using LLaMA models at the 1B and 8B scales trained on the Tulu3 and OpenThoughts3 datasets, and uncover: (i) Internal artificial entanglement in the updates of query and value projection matrices in LoRA follows a volume law with a central suppression (termed as the "Entanglement Valley"), which is sensitive to hyper-parameters and is distinct from that in FFT; (ii) External artificial entanglement in attention matrices, corresponding to token-token correlations in representation space, follows an area law with logarithmic corrections and remains robust to LoRA hyper-parameters and training steps. Drawing a parallel to the No-Hair Theorem in black hole physics, we propose that although LoRA and FFT induce distinct internal entanglement signatures, such differences do not manifest in the attention outputs, suggesting a "no-hair" property that results in the effectiveness of low rank updates. We further provide theoretical support based on random matrix theory, and extend our analysis to an MPS Adaptation PEFT method, which exhibits qualitatively similar behaviors.