¿Cómo recuerda LoRA? Una ley de memoria paramétrica para el ajuste fino de LLMs

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs) deben aprender y actualizar continuamente sus conocimientos para seguir siendo efectivos en entornos dinámicos del mundo real. Si bien la Adaptación de Bajo Rango (LoRA) se utiliza ampliamente para dichas actualizaciones de memoria, los estudios existentes se basan principalmente en evaluaciones cualitativas posteriores, dejando en gran medida inexplorados los límites cuantitativos de capacidad y la dinámica subyacente de la memoria paramétrica exacta. Para cerrar esta brecha, empleamos LoRA como una sonda de capacidad de memoria controlada dentro del espacio latente para cuantificar sistemáticamente la memoria paramétrica exacta. Introducimos la Ley de Memoria Paramétrica, una ley de potencias robusta que vincula la reducción de pérdida ΔL con los parámetros efectivos y la longitud de la secuencia. A nivel de token, un análisis de grano fino revela una transición de fase determinista, demostrando que una probabilidad de predicción p > 0.5 constituye una condición suficiente para el recuerdo textual bajo decodificación voraz. Impulsados por estos hallazgos, presentamos MemFT, una estrategia de optimización guiada por umbral que redistribuye dinámicamente el presupuesto de entrenamiento hacia tokens por debajo del umbral. Las evaluaciones empíricas demuestran que MemFT puede mejorar la fidelidad y eficiencia de la memoria. El código se publicará en https://github.com/zjunlp/ParametricMemoryLaw.

English

Large Language Models (LLMs) must continuously learn and update knowledge to remain effective in dynamic real-world environments. While Low-Rank Adaptation (LoRA) is widely used for such memory updates, existing studies mainly rely on qualitative downstream evaluations, leaving the quantitative capacity limits and underlying dynamics of exact parametric memory largely unexplored. To bridge this gap, we employ LoRA as a controlled memory capacity probe within the latent space to systematically quantify exact parametric memory. We introduce the Parametric Memory Law, a robust power law linking loss reduction Delta L to effective parameters and sequence length. At the token level, fine-grained analysis reveals a deterministic phase transition, demonstrating that a prediction probability of p > 0.5 constitutes a sufficient condition for verbatim recall under greedy decoding. Driven by these insights, we introduce MemFT, a threshold-guided optimization strategy that dynamically redistributes the training budget toward sub-threshold tokens. Empirical evaluations demonstrate that MemFT can enhance memory fidelity and efficiency. Code will be released at https://github.com/zjunlp/ParametricMemoryLaw.