ChatPaper.aiChatPaper

大規模言語モデルのファインチューニングにおける人工的連携

Artificial Entanglement in the Fine-Tuning of Large Language Models

January 11, 2026
著者: Min Chen, Zihan Wang, Canyu Chen, Zeguan Wu, Manling Li, Junyu Liu
cs.AI

要旨

大規模言語モデル(LLM)は、低ランク更新を介して少数の学習可能パラメータのみを変更するパラメータ効率型ファインチューニング(PEFT)手法を用いて新たなタスクに適応させることができる。本研究では、その有効性を理解するために量子情報に着想を得た視点を採用する。この視点から見ると、低ランクパラメータ化は自然に低次元の行列積状態(MPS)表現に対応し、パラメータ構造のエンタングルメントに基づく特徴付けを可能にする。そこで我々は、人工ニューラルネットワーク(特にLLM)のパラメータのエンタングルメントエントロピーとして定義される「人工エンタングルメント」を命名し測定する。まず、Tulu3およびOpenThoughts3データセットで学習した1Bおよび8BスケールのLLaMAモデルを用いて、代表的な低ランク適応(LoRA)PEFT手法と完全ファインチューニング(FFT)を比較検討し、以下のことを明らかにする:(i)LoRAにおけるクエリおよび値射影行列の更新における内部人工エンタングルメントは、中心抑制(「エンタングルメントバレー」と命名)を伴う体積則に従い、これはハイパーパラメータに敏感であり、FFTのものとは異なる;(ii)表現空間におけるトークン-トークン相関に対応する注意行列における外部人工エンタングルメントは、対数補正を伴う面積則に従い、LoRAのハイパーパラメータや学習ステップに対して頑健である。ブラックホール物理学における無毛定理との類似性を引き合いに、LoRAとFFTが異なる内部エンタングルメント特性を誘導するにもかかわらず、そのような差異が注意出力には現れないことを示唆し、低ランク更新の有効性をもたらす「無毛」特性を提案する。さらに、ランダム行列理論に基づく理論的支援を提供し、定性的に同様の振る舞いを示すMPS適応PEFT手法への分析を拡張する。
English
Large language models (LLMs) can be adapted to new tasks using parameter-efficient fine-tuning (PEFT) methods that modify only a small number of trainable parameters, often through low-rank updates. In this work, we adopt a quantum-information-inspired perspective to understand their effectiveness. From this perspective, low-rank parameterizations naturally correspond to low-dimensional Matrix Product States (MPS) representations, which enable entanglement-based characterizations of parameter structure. Thereby, we term and measure "Artificial Entanglement", defined as the entanglement entropy of the parameters in artificial neural networks (in particular the LLMs). We first study the representative low-rank adaptation (LoRA) PEFT method, alongside full fine-tuning (FFT), using LLaMA models at the 1B and 8B scales trained on the Tulu3 and OpenThoughts3 datasets, and uncover: (i) Internal artificial entanglement in the updates of query and value projection matrices in LoRA follows a volume law with a central suppression (termed as the "Entanglement Valley"), which is sensitive to hyper-parameters and is distinct from that in FFT; (ii) External artificial entanglement in attention matrices, corresponding to token-token correlations in representation space, follows an area law with logarithmic corrections and remains robust to LoRA hyper-parameters and training steps. Drawing a parallel to the No-Hair Theorem in black hole physics, we propose that although LoRA and FFT induce distinct internal entanglement signatures, such differences do not manifest in the attention outputs, suggesting a "no-hair" property that results in the effectiveness of low rank updates. We further provide theoretical support based on random matrix theory, and extend our analysis to an MPS Adaptation PEFT method, which exhibits qualitatively similar behaviors.
PDF32January 31, 2026