SPARC: Adaptación de Indicaciones Consciente del Subespacio para un Aprendizaje Continuo Robusto en LLMs
SPARC: Subspace-Aware Prompt Adaptation for Robust Continual Learning in LLMs
February 5, 2025
Autores: Dinithi Jayasuriya, Sina Tayebati, Davide Ettori, Ranganath Krishnan, Amit Ranjan Trivedi
cs.AI
Resumen
Proponemos SPARC, un marco ligero de aprendizaje continuo para grandes modelos de lenguaje (LLMs) que permite una adaptación eficiente a tareas a través de ajustes de indicaciones en un espacio de menor dimensión. Al aprovechar el análisis de componentes principales (PCA), identificamos un subespacio compacto de los datos de entrenamiento. Optimizar las indicaciones en este espacio de menor dimensión mejora la eficiencia del entrenamiento, ya que se enfoca en las actualizaciones de las características más relevantes mientras se reduce la carga computacional. Además, dado que la estructura interna del modelo permanece inalterada, el extenso conocimiento adquirido del preentrenamiento se conserva por completo, asegurando que la información previamente aprendida no se ve comprometida durante la adaptación. Nuestro método logra una alta retención de conocimiento tanto en configuraciones de aprendizaje continuo incremental de tareas como de dominios, al ajustar solo el 0.04% de los parámetros del modelo. Además, al integrar LoRA, mejoramos la adaptabilidad a restricciones computacionales, permitiendo un equilibrio entre precisión y costo de entrenamiento. Experimentos en el banco de pruebas SuperGLUE demuestran que nuestro ajuste de indicaciones basado en PCA combinado con LoRA mantiene la retención total del conocimiento mientras mejora la precisión, utilizando solo el 1% de los parámetros del modelo. Estos resultados establecen nuestro enfoque como una solución escalable y eficiente en recursos para el aprendizaje continuo en LLMs.
English
We propose SPARC, a lightweight continual learning framework for large
language models (LLMs) that enables efficient task adaptation through prompt
tuning in a lower-dimensional space. By leveraging principal component analysis
(PCA), we identify a compact subspace of the training data. Optimizing prompts
in this lower-dimensional space enhances training efficiency, as it focuses
updates on the most relevant features while reducing computational overhead.
Furthermore, since the model's internal structure remains unaltered, the
extensive knowledge gained from pretraining is fully preserved, ensuring that
previously learned information is not compromised during adaptation. Our method
achieves high knowledge retention in both task-incremental and
domain-incremental continual learning setups while fine-tuning only 0.04% of
the model's parameters. Additionally, by integrating LoRA, we enhance
adaptability to computational constraints, allowing for a tradeoff between
accuracy and training cost. Experiments on the SuperGLUE benchmark demonstrate
that our PCA-based prompt tuning combined with LoRA maintains full knowledge
retention while improving accuracy, utilizing only 1% of the model's
parameters. These results establish our approach as a scalable and
resource-efficient solution for continual learning in LLMs.Summary
AI-Generated Summary