Wie LoRA sich erinnert? Ein parametrisches Gedächtnisgesetz für das Feintuning von LLMs

Zusammenfassung

Große Sprachmodelle (Large Language Models, LLMs) müssen kontinuierlich lernen und ihr Wissen aktualisieren, um in dynamischen realen Umgebungen effektiv zu bleiben. Obwohl die Niedrigrang-Anpassung (Low-Rank Adaptation, LoRA) häufig für solche Gedächtnisaktualisierungen verwendet wird, stützen sich bestehende Studien hauptsächlich auf qualitative Auswertungen nachgelagerter Aufgaben, sodass die quantitativen Kapazitätsgrenzen und die zugrundeliegende Dynamik exakten parametrischen Gedächtnisses weitgehend unerforscht bleiben. Um diese Lücke zu schließen, nutzen wir LoRA als kontrollierte Gedächtniskapazitätssonde im latenten Raum, um exaktes parametrisches Gedächtnis systematisch zu quantifizieren. Wir führen das Parametrische Gedächtnisgesetz (Parametric Memory Law) ein, ein robustes Potenzgesetz, das die Verlustreduktion \(\Delta L\) mit effektiven Parametern und Sequenzlänge verknüpft. Auf Token-Ebene offenbart eine feinkörnige Analyse einen deterministischen Phasenübergang, der zeigt, dass eine Vorhersagewahrscheinlichkeit von \(p > 0,5\) eine hinreichende Bedingung für wörtliches Abrufen unter gieriger Dekodierung darstellt. Angetrieben von diesen Erkenntnissen führen wir MemFT ein, eine schwellengeführte Optimierungsstrategie, die das Trainingsbudget dynamisch auf unterschwellige Token umverteilt. Empirische Auswertungen zeigen, dass MemFT die Gedächtnistreue und -effizienz verbessern kann. Der Code wird unter https://github.com/zjunlp/ParametricMemoryLaw veröffentlicht.

English

Large Language Models (LLMs) must continuously learn and update knowledge to remain effective in dynamic real-world environments. While Low-Rank Adaptation (LoRA) is widely used for such memory updates, existing studies mainly rely on qualitative downstream evaluations, leaving the quantitative capacity limits and underlying dynamics of exact parametric memory largely unexplored. To bridge this gap, we employ LoRA as a controlled memory capacity probe within the latent space to systematically quantify exact parametric memory. We introduce the Parametric Memory Law, a robust power law linking loss reduction Delta L to effective parameters and sequence length. At the token level, fine-grained analysis reveals a deterministic phase transition, demonstrating that a prediction probability of p > 0.5 constitutes a sufficient condition for verbatim recall under greedy decoding. Driven by these insights, we introduce MemFT, a threshold-guided optimization strategy that dynamically redistributes the training budget toward sub-threshold tokens. Empirical evaluations demonstrate that MemFT can enhance memory fidelity and efficiency. Code will be released at https://github.com/zjunlp/ParametricMemoryLaw.