ChatPaper.aiChatPaper

SPARC : Adaptation de la directive consciente de sous-espace pour un apprentissage continu robuste dans les LLM

SPARC: Subspace-Aware Prompt Adaptation for Robust Continual Learning in LLMs

February 5, 2025
Auteurs: Dinithi Jayasuriya, Sina Tayebati, Davide Ettori, Ranganath Krishnan, Amit Ranjan Trivedi
cs.AI

Résumé

Nous proposons SPARC, un cadre d'apprentissage continu léger pour les grands modèles de langage (GML) qui permet une adaptation efficace des tâches grâce à l'ajustement de l'invite dans un espace de dimension inférieure. En exploitant l'analyse en composantes principales (ACP), nous identifions un sous-espace compact des données d'entraînement. L'optimisation des invites dans cet espace de dimension inférieure améliore l'efficacité de l'entraînement, en se concentrant sur les fonctionnalités les plus pertinentes tout en réduisant la charge computationnelle. De plus, puisque la structure interne du modèle reste inchangée, les connaissances approfondies acquises lors de la préformation sont entièrement préservées, garantissant que les informations précédemment apprises ne sont pas compromises lors de l'adaptation. Notre méthode atteint une rétention élevée des connaissances à la fois dans les configurations d'apprentissage continu par incréments de tâches et par incréments de domaines tout en affinant seulement 0,04 % des paramètres du modèle. De plus, en intégrant LoRA, nous améliorons l'adaptabilité aux contraintes computationnelles, permettant un compromis entre précision et coût d'entraînement. Des expériences sur le banc d'essai SuperGLUE démontrent que notre ajustement d'invite basé sur l'ACP combiné à LoRA maintient une rétention complète des connaissances tout en améliorant la précision, en utilisant seulement 1 % des paramètres du modèle. Ces résultats établissent notre approche comme une solution évolutive et efficiente en ressources pour l'apprentissage continu dans les GML.
English
We propose SPARC, a lightweight continual learning framework for large language models (LLMs) that enables efficient task adaptation through prompt tuning in a lower-dimensional space. By leveraging principal component analysis (PCA), we identify a compact subspace of the training data. Optimizing prompts in this lower-dimensional space enhances training efficiency, as it focuses updates on the most relevant features while reducing computational overhead. Furthermore, since the model's internal structure remains unaltered, the extensive knowledge gained from pretraining is fully preserved, ensuring that previously learned information is not compromised during adaptation. Our method achieves high knowledge retention in both task-incremental and domain-incremental continual learning setups while fine-tuning only 0.04% of the model's parameters. Additionally, by integrating LoRA, we enhance adaptability to computational constraints, allowing for a tradeoff between accuracy and training cost. Experiments on the SuperGLUE benchmark demonstrate that our PCA-based prompt tuning combined with LoRA maintains full knowledge retention while improving accuracy, utilizing only 1% of the model's parameters. These results establish our approach as a scalable and resource-efficient solution for continual learning in LLMs.

Summary

AI-Generated Summary

PDF22February 11, 2025