Como a LoRA se Lembra? Uma Lei de Memória Paramétrica para o Fine-Tuning de LLMs

Resumo

Modelos de Linguagem de Grande Porte (LLMs) precisam aprender continuamente e atualizar conhecimentos para permanecerem eficazes em ambientes reais dinâmicos. Embora a Adaptação de Baixo Posto (LoRA) seja amplamente utilizada para tais atualizações de memória, estudos existentes baseiam-se principalmente em avaliações qualitativas a jusante, deixando os limites quantitativos de capacidade e a dinâmica subjacente da memória paramétrica exata em grande parte inexplorados. Para preencher essa lacuna, empregamos a LoRA como uma sonda controlada de capacidade de memória no espaço latente para quantificar sistematicamente a memória paramétrica exata. Introduzimos a Lei de Memória Paramétrica, uma lei de potência robusta que relaciona a redução de perda ΔL a parâmetros efetivos e comprimento de sequência. No nível do token, uma análise refinada revela uma transição de fase determinística, demonstrando que uma probabilidade de predição p > 0,5 constitui condição suficiente para recuperação literal sob decodificação gulosa. Impulsionados por esses insights, apresentamos o MemFT, uma estratégia de otimização guiada por limiar que redistribui dinamicamente o orçamento de treinamento para tokens abaixo do limiar. Avaliações empíricas demonstram que o MemFT pode aprimorar a fidelidade e a eficiência da memória. O código será disponibilizado em https://github.com/zjunlp/ParametricMemoryLaw.

English

Large Language Models (LLMs) must continuously learn and update knowledge to remain effective in dynamic real-world environments. While Low-Rank Adaptation (LoRA) is widely used for such memory updates, existing studies mainly rely on qualitative downstream evaluations, leaving the quantitative capacity limits and underlying dynamics of exact parametric memory largely unexplored. To bridge this gap, we employ LoRA as a controlled memory capacity probe within the latent space to systematically quantify exact parametric memory. We introduce the Parametric Memory Law, a robust power law linking loss reduction Delta L to effective parameters and sequence length. At the token level, fine-grained analysis reveals a deterministic phase transition, demonstrating that a prediction probability of p > 0.5 constitutes a sufficient condition for verbatim recall under greedy decoding. Driven by these insights, we introduce MemFT, a threshold-guided optimization strategy that dynamically redistributes the training budget toward sub-threshold tokens. Empirical evaluations demonstrate that MemFT can enhance memory fidelity and efficiency. Code will be released at https://github.com/zjunlp/ParametricMemoryLaw.