Как LoRA запоминает? Параметрический закон памяти для тонкой настройки LLM

Аннотация

Крупные языковые модели (LLM) должны непрерывно обучаться и обновлять свои знания, чтобы оставаться эффективными в динамичных реальных условиях. Хотя низкоранговая адаптация (LoRA) широко используется для таких обновлений памяти, существующие исследования в основном опираются на качественные оценки конечных задач, оставляя количественные пределы ёмкости и базовую динамику точной параметрической памяти в значительной степени неисследованными. Для устранения этого пробела мы используем LoRA в качестве контролируемого зонда ёмкости памяти в скрытом пространстве, чтобы систематически количественно оценить точную параметрическую память. Мы вводим закон параметрической памяти — устойчивый степенной закон, связывающий снижение потерь ΔL с эффективными параметрами и длиной последовательности. На уровне токенов детальный анализ выявляет детерминированный фазовый переход, демонстрирующий, что вероятность предсказания p > 0,5 является достаточным условием для дословного воспроизведения при жадном декодировании. Руководствуясь этими выводами, мы предлагаем MemFT — стратегию оптимизации на основе порога, которая динамически перераспределяет бюджет обучения в пользу токенов, не достигших порога. Эмпирические оценки показывают, что MemFT способна повысить точность и эффективность запоминания. Код будет опубликован по адресу https://github.com/zjunlp/ParametricMemoryLaw.

English

Large Language Models (LLMs) must continuously learn and update knowledge to remain effective in dynamic real-world environments. While Low-Rank Adaptation (LoRA) is widely used for such memory updates, existing studies mainly rely on qualitative downstream evaluations, leaving the quantitative capacity limits and underlying dynamics of exact parametric memory largely unexplored. To bridge this gap, we employ LoRA as a controlled memory capacity probe within the latent space to systematically quantify exact parametric memory. We introduce the Parametric Memory Law, a robust power law linking loss reduction Delta L to effective parameters and sequence length. At the token level, fine-grained analysis reveals a deterministic phase transition, demonstrating that a prediction probability of p > 0.5 constitutes a sufficient condition for verbatim recall under greedy decoding. Driven by these insights, we introduce MemFT, a threshold-guided optimization strategy that dynamically redistributes the training budget toward sub-threshold tokens. Empirical evaluations demonstrate that MemFT can enhance memory fidelity and efficiency. Code will be released at https://github.com/zjunlp/ParametricMemoryLaw.