SPARC: Subruimte-Bewuste Prompt Aanpassing voor Robuust Continu Leren in LLM's
SPARC: Subspace-Aware Prompt Adaptation for Robust Continual Learning in LLMs
February 5, 2025
Auteurs: Dinithi Jayasuriya, Sina Tayebati, Davide Ettori, Ranganath Krishnan, Amit Ranjan Trivedi
cs.AI
Samenvatting
Wij stellen SPARC voor, een lichtgewicht continu leerframework voor grote taalmodellen (LLM's) dat efficiënte taakaanpassing mogelijk maakt door promptafstemming in een lagere-dimensionale ruimte. Door gebruik te maken van principale componentenanalyse (PCA) identificeren we een compacte subspace van de trainingsgegevens. Het optimaliseren van prompts in deze lagere-dimensionale ruimte verbetert de trainings-efficiëntie, doordat het de updates richt op de meest relevante kenmerken en tegelijkertijd de rekenkundige overhead vermindert. Bovendien, aangezien de interne structuur van het model onveranderd blijft, wordt de uitgebreide kennis die is opgedaan tijdens de voorafgaande training volledig behouden, waardoor wordt gegarandeerd dat eerder geleerde informatie niet in gevaar komt tijdens de aanpassing. Onze methode bereikt een hoge kennisretentie in zowel taak-incrementele als domein-incrementele continu leeropstellingen, terwijl slechts 0,04% van de parameters van het model wordt fijngestemd. Bovendien, door LoRA te integreren, verbeteren we de aanpasbaarheid aan rekenkundige beperkingen, waardoor een afweging tussen nauwkeurigheid en trainingskosten mogelijk is. Experimenten op de SuperGLUE benchmark tonen aan dat onze op PCA gebaseerde promptafstemming in combinatie met LoRA volledige kennisretentie behoudt en de nauwkeurigheid verbetert, met slechts 1% van de parameters van het model. Deze resultaten bevestigen onze aanpak als een schaalbare en efficiënte oplossing voor continu leren in LLM's.
English
We propose SPARC, a lightweight continual learning framework for large
language models (LLMs) that enables efficient task adaptation through prompt
tuning in a lower-dimensional space. By leveraging principal component analysis
(PCA), we identify a compact subspace of the training data. Optimizing prompts
in this lower-dimensional space enhances training efficiency, as it focuses
updates on the most relevant features while reducing computational overhead.
Furthermore, since the model's internal structure remains unaltered, the
extensive knowledge gained from pretraining is fully preserved, ensuring that
previously learned information is not compromised during adaptation. Our method
achieves high knowledge retention in both task-incremental and
domain-incremental continual learning setups while fine-tuning only 0.04% of
the model's parameters. Additionally, by integrating LoRA, we enhance
adaptability to computational constraints, allowing for a tradeoff between
accuracy and training cost. Experiments on the SuperGLUE benchmark demonstrate
that our PCA-based prompt tuning combined with LoRA maintains full knowledge
retention while improving accuracy, utilizing only 1% of the model's
parameters. These results establish our approach as a scalable and
resource-efficient solution for continual learning in LLMs.Summary
AI-Generated Summary