ChatPaper.aiChatPaper

SPARC: Adaptación de Indicaciones Consciente del Subespacio para un Aprendizaje Continuo Robusto en LLMs

SPARC: Subspace-Aware Prompt Adaptation for Robust Continual Learning in LLMs

February 5, 2025
Autores: Dinithi Jayasuriya, Sina Tayebati, Davide Ettori, Ranganath Krishnan, Amit Ranjan Trivedi
cs.AI

Resumen

Proponemos SPARC, un marco ligero de aprendizaje continuo para grandes modelos de lenguaje (LLMs) que permite una adaptación eficiente a tareas a través de ajustes de indicaciones en un espacio de menor dimensión. Al aprovechar el análisis de componentes principales (PCA), identificamos un subespacio compacto de los datos de entrenamiento. Optimizar las indicaciones en este espacio de menor dimensión mejora la eficiencia del entrenamiento, ya que se enfoca en las actualizaciones de las características más relevantes mientras se reduce la carga computacional. Además, dado que la estructura interna del modelo permanece inalterada, el extenso conocimiento adquirido del preentrenamiento se conserva por completo, asegurando que la información previamente aprendida no se ve comprometida durante la adaptación. Nuestro método logra una alta retención de conocimiento tanto en configuraciones de aprendizaje continuo incremental de tareas como de dominios, al ajustar solo el 0.04% de los parámetros del modelo. Además, al integrar LoRA, mejoramos la adaptabilidad a restricciones computacionales, permitiendo un equilibrio entre precisión y costo de entrenamiento. Experimentos en el banco de pruebas SuperGLUE demuestran que nuestro ajuste de indicaciones basado en PCA combinado con LoRA mantiene la retención total del conocimiento mientras mejora la precisión, utilizando solo el 1% de los parámetros del modelo. Estos resultados establecen nuestro enfoque como una solución escalable y eficiente en recursos para el aprendizaje continuo en LLMs.
English
We propose SPARC, a lightweight continual learning framework for large language models (LLMs) that enables efficient task adaptation through prompt tuning in a lower-dimensional space. By leveraging principal component analysis (PCA), we identify a compact subspace of the training data. Optimizing prompts in this lower-dimensional space enhances training efficiency, as it focuses updates on the most relevant features while reducing computational overhead. Furthermore, since the model's internal structure remains unaltered, the extensive knowledge gained from pretraining is fully preserved, ensuring that previously learned information is not compromised during adaptation. Our method achieves high knowledge retention in both task-incremental and domain-incremental continual learning setups while fine-tuning only 0.04% of the model's parameters. Additionally, by integrating LoRA, we enhance adaptability to computational constraints, allowing for a tradeoff between accuracy and training cost. Experiments on the SuperGLUE benchmark demonstrate that our PCA-based prompt tuning combined with LoRA maintains full knowledge retention while improving accuracy, utilizing only 1% of the model's parameters. These results establish our approach as a scalable and resource-efficient solution for continual learning in LLMs.

Summary

AI-Generated Summary

PDF22February 11, 2025