Hoe onthoudt LoRA? Een parametrische geheugenwet voor LLM-fijnafstemming

Samenvatting

Grote Taalmodellen (LLM's) moeten continu leren en kennis bijwerken om effectief te blijven in dynamische, realistische omgevingen. Hoewel Laag-Rang Adaptatie (LoRA) veelvuldig wordt gebruikt voor dergelijke geheugenupdates, steunen bestaande studies voornamelijk op kwalitatieve downstream-evaluaties, waardoor de kwantitatieve capaciteitsgrenzen en onderliggende dynamiek van exact parametrisch geheugen grotendeels onverkend blijven. Om deze kloof te overbruggen, gebruiken wij LoRA als een gecontroleerde geheugencapaciteitssonde in de latente ruimte om exact parametrisch geheugen systematisch te kwantificeren. Wij introduceren de Parametrische Geheugenwet, een robuuste machtswet die de verliesreductie ΔL koppelt aan effectieve parameters en sequentielengte. Op token-niveau onthult een fijnmazige analyse een deterministische faseovergang, die aantoont dat een voorspellingskans van p > 0,5 een voldoende voorwaarde vormt voor letterlijke herinnering onder greedy decoding. Gedreven door deze inzichten introduceren wij MemFT, een drempelgestuurde optimalisatiestrategie die het trainingsbudget dynamisch herverdeelt naar subdrempeltokens. Empirische evaluaties tonen aan dat MemFT de geheugentrouw en efficiëntie kan verbeteren. Code zal worden vrijgegeven op https://github.com/zjunlp/ParametricMemoryLaw.

English

Large Language Models (LLMs) must continuously learn and update knowledge to remain effective in dynamic real-world environments. While Low-Rank Adaptation (LoRA) is widely used for such memory updates, existing studies mainly rely on qualitative downstream evaluations, leaving the quantitative capacity limits and underlying dynamics of exact parametric memory largely unexplored. To bridge this gap, we employ LoRA as a controlled memory capacity probe within the latent space to systematically quantify exact parametric memory. We introduce the Parametric Memory Law, a robust power law linking loss reduction Delta L to effective parameters and sequence length. At the token level, fine-grained analysis reveals a deterministic phase transition, demonstrating that a prediction probability of p > 0.5 constitutes a sufficient condition for verbatim recall under greedy decoding. Driven by these insights, we introduce MemFT, a threshold-guided optimization strategy that dynamically redistributes the training budget toward sub-threshold tokens. Empirical evaluations demonstrate that MemFT can enhance memory fidelity and efficiency. Code will be released at https://github.com/zjunlp/ParametricMemoryLaw.