Comment LoRA se souvient-elle ? Une loi de mémoire paramétrique pour le fine-tuning des LLM

Résumé

Les Grands Modèles de Langage (GMLs) doivent apprendre et mettre à jour leurs connaissances en continu pour rester efficaces dans des environnements dynamiques réels. Bien que l’Adaptation de Bas Rang (LoRA) soit largement utilisée pour ces mises à jour mémoire, les études existantes s’appuient principalement sur des évaluations qualitatives en aval, laissant largement inexplorées les limites quantitatives de capacité et la dynamique sous-jacente de la mémoire paramétrique exacte. Pour combler cette lacune, nous utilisons LoRA comme une sonde contrôlée de capacité mémoire dans l’espace latent afin de quantifier systématiquement la mémoire paramétrique exacte. Nous introduisons la Loi de Mémoire Paramétrique, une loi de puissance robuste reliant la réduction de perte Delta L aux paramètres effectifs et à la longueur de séquence. Au niveau des tokens, une analyse fine révèle une transition de phase déterministe, démontrant qu’une probabilité de prédiction p > 0,5 constitue une condition suffisante pour un rappel textuel exact sous décodage glouton. Guidés par ces observations, nous proposons MemFT, une stratégie d’optimisation guidée par un seuil qui redistribue dynamiquement le budget d’entraînement vers les tokens sous le seuil. Les évaluations empiriques montrent que MemFT peut améliorer la fidélité et l’efficacité de la mémoire. Le code sera publié à l’adresse https://github.com/zjunlp/ParametricMemoryLaw.

English

Large Language Models (LLMs) must continuously learn and update knowledge to remain effective in dynamic real-world environments. While Low-Rank Adaptation (LoRA) is widely used for such memory updates, existing studies mainly rely on qualitative downstream evaluations, leaving the quantitative capacity limits and underlying dynamics of exact parametric memory largely unexplored. To bridge this gap, we employ LoRA as a controlled memory capacity probe within the latent space to systematically quantify exact parametric memory. We introduce the Parametric Memory Law, a robust power law linking loss reduction Delta L to effective parameters and sequence length. At the token level, fine-grained analysis reveals a deterministic phase transition, demonstrating that a prediction probability of p > 0.5 constitutes a sufficient condition for verbatim recall under greedy decoding. Driven by these insights, we introduce MemFT, a threshold-guided optimization strategy that dynamically redistributes the training budget toward sub-threshold tokens. Empirical evaluations demonstrate that MemFT can enhance memory fidelity and efficiency. Code will be released at https://github.com/zjunlp/ParametricMemoryLaw.