ChatPaper.aiChatPaper

대규모 언어 모델의 미세 조정에서 인공적 얽힘

Artificial Entanglement in the Fine-Tuning of Large Language Models

January 11, 2026
저자: Min Chen, Zihan Wang, Canyu Chen, Zeguan Wu, Manling Li, Junyu Liu
cs.AI

초록

대규모 언어 모델(LLM)은 적은 수의 학습 가능 매개변수만을 수정하는 매개변수 효율 미세 조정(PEFT) 방법을 통해 새로운 작업에 적용될 수 있으며, 이는 종종 저순위 업데이트를 통해 이루어집니다. 본 연구에서는 이러한 방법들의 효과를 이해하기 위해 양자 정보 이론에서 영감을 받은 관점을 채택합니다. 이 관점에서 저순위 매개변수화는 자연스럽게 저차원 행렬 곱 상태(MPS) 표현에 대응되며, 이를 통해 매개변수 구조에 대한 얽힘 기반 특성화가 가능해집니다. 이에 따라 우리는 인공 신경망(특히 LLM)의 매개변수에 대한 얽힘 엔트로피로 정의되는 "인공 얽힘"이라는 개념을 정의하고 측정합니다. 우리는 먼저 Tulu3 및 OpenThoughts3 데이터셋으로 학습된 1B 및 8B 규모의 LLaMA 모델을 사용하여 대표적인 저순위 적응(LoRA) PEFT 방법과 완전 미세 조정(FFT)을 비교 연구하고 다음과 같은 사실을 발견했습니다: (i) LoRA의 쿼리 및 값 투영 행렬 업데이트에서 관찰된 내부 인공 얽힘은 중심 억제("얽힘 골짜기"라고 명명)를 동반한 체적 법칙을 따르며, 이는 하이퍼파라미터에 민감하고 FFT에서 관찰되는 양상과 구별됩니다; (ii) 표현 공간에서 토큰-토큰 상관관계에 해당하는 어텐션 행렬에서의 외부 인공 얽힘은 대수적 보정을 수반한 면적 법칙을 따르며, LoRA 하이퍼파라미터 및 학습 단계에 대해 강건하게 유지됩니다. 블랙홀 물리학의 '털 없는 정리'와 유사점을 도출하여, 우리는 LoRA와 FFT가 서로 다른 내부 얽힘 특성을 유발하지만, 이러한 차이가 어텐션 출력에는 나타나지 않아 저순위 업데이트의 효과성을 가져오는 "털 없는" 특성을 시사한다고 주장합니다. 우리는 또한 무작위 행렬 이론에 기반한 이론적 근거를 제시하고, 정성적으로 유사한 양상을 보이는 MPS 적응 PEFT 방법으로 분석을 확장합니다.
English
Large language models (LLMs) can be adapted to new tasks using parameter-efficient fine-tuning (PEFT) methods that modify only a small number of trainable parameters, often through low-rank updates. In this work, we adopt a quantum-information-inspired perspective to understand their effectiveness. From this perspective, low-rank parameterizations naturally correspond to low-dimensional Matrix Product States (MPS) representations, which enable entanglement-based characterizations of parameter structure. Thereby, we term and measure "Artificial Entanglement", defined as the entanglement entropy of the parameters in artificial neural networks (in particular the LLMs). We first study the representative low-rank adaptation (LoRA) PEFT method, alongside full fine-tuning (FFT), using LLaMA models at the 1B and 8B scales trained on the Tulu3 and OpenThoughts3 datasets, and uncover: (i) Internal artificial entanglement in the updates of query and value projection matrices in LoRA follows a volume law with a central suppression (termed as the "Entanglement Valley"), which is sensitive to hyper-parameters and is distinct from that in FFT; (ii) External artificial entanglement in attention matrices, corresponding to token-token correlations in representation space, follows an area law with logarithmic corrections and remains robust to LoRA hyper-parameters and training steps. Drawing a parallel to the No-Hair Theorem in black hole physics, we propose that although LoRA and FFT induce distinct internal entanglement signatures, such differences do not manifest in the attention outputs, suggesting a "no-hair" property that results in the effectiveness of low rank updates. We further provide theoretical support based on random matrix theory, and extend our analysis to an MPS Adaptation PEFT method, which exhibits qualitatively similar behaviors.
PDF32January 31, 2026