Intreccio Artificiale nella Regolazione Fine dei Grandi Modelli Linguistici

Abstract

I grandi modelli linguistici (LLM) possono essere adattati a nuovi compiti utilizzando metodi di fine-tuning efficiente in parametri (PEFT) che modificano solo un piccolo numero di parametri addestrabili, spesso attraverso aggiornamenti di basso rango. In questo lavoro, adottiamo una prospettiva ispirata all'informazione quantistica per comprenderne l'efficacia. Da questa prospettiva, le parametrizzazioni di basso rango corrispondono naturalmente a rappresentazioni di Stati di Prodotto Matriciale (MPS) a bassa dimensionalità, che consentono caratterizzazioni basate sull'entanglement della struttura dei parametri. Pertanto, definiamo e misuriamo l'"Entanglement Artificiale", definito come l'entropia di entanglement dei parametri nelle reti neurali artificiali (in particolare gli LLM). Studiamo inizialmente il metodo PEFT rappresentativo di adattamento a basso rango (LoRA), insieme al fine-tuning completo (FFT), utilizzando modelli LLaMA alle scale 1B e 8B addestrati sui dataset Tulu3 e OpenThoughts3, e scopriamo: (i) L'entanglement artificiale interno negli aggiornamenti delle matrici di proiezione query e value in LoRA segue una legge del volume con una soppressione centrale (denominata "Valle dell'Entanglement"), che è sensibile agli iperparametri ed è distinta da quella in FFT; (ii) L'entanglement artificiale esterno nelle matrici di attenzione, corrispondente alle correlazioni token-token nello spazio delle rappresentazioni, segue una legge dell'area con correzioni logaritmiche e rimane robusto rispetto agli iperparametri LoRA e ai passi di addestramento. Tracciando un parallelo con il Teorema dell'Assenza di Capelli (No-Hair Theorem) nella fisica dei buchi neri, proponiamo che sebbene LoRA e FFT inducano distinte firme di entanglement interno, tali differenze non si manifestano negli output di attenzione, suggerendo una proprietà di "assenza di capelli" che risulta nell'efficacia degli aggiornamenti di basso rango. Forniamo inoltre supporto teorico basato sulla teoria delle matrici casuali ed estendiamo la nostra analisi a un metodo PEFT di Adattamento MPS, che mostra comportamenti qualitativamente simili.

English

Large language models (LLMs) can be adapted to new tasks using parameter-efficient fine-tuning (PEFT) methods that modify only a small number of trainable parameters, often through low-rank updates. In this work, we adopt a quantum-information-inspired perspective to understand their effectiveness. From this perspective, low-rank parameterizations naturally correspond to low-dimensional Matrix Product States (MPS) representations, which enable entanglement-based characterizations of parameter structure. Thereby, we term and measure "Artificial Entanglement", defined as the entanglement entropy of the parameters in artificial neural networks (in particular the LLMs). We first study the representative low-rank adaptation (LoRA) PEFT method, alongside full fine-tuning (FFT), using LLaMA models at the 1B and 8B scales trained on the Tulu3 and OpenThoughts3 datasets, and uncover: (i) Internal artificial entanglement in the updates of query and value projection matrices in LoRA follows a volume law with a central suppression (termed as the "Entanglement Valley"), which is sensitive to hyper-parameters and is distinct from that in FFT; (ii) External artificial entanglement in attention matrices, corresponding to token-token correlations in representation space, follows an area law with logarithmic corrections and remains robust to LoRA hyper-parameters and training steps. Drawing a parallel to the No-Hair Theorem in black hole physics, we propose that although LoRA and FFT induce distinct internal entanglement signatures, such differences do not manifest in the attention outputs, suggesting a "no-hair" property that results in the effectiveness of low rank updates. We further provide theoretical support based on random matrix theory, and extend our analysis to an MPS Adaptation PEFT method, which exhibits qualitatively similar behaviors.

Intreccio Artificiale nella Regolazione Fine dei Grandi Modelli Linguistici

Artificial Entanglement in the Fine-Tuning of Large Language Models

Abstract

Support