SPARC: Adattamento della Prompt Consapevole dello Sottospazio per un Apprendimento Continuo Robusto in LLM
SPARC: Subspace-Aware Prompt Adaptation for Robust Continual Learning in LLMs
February 5, 2025
Autori: Dinithi Jayasuriya, Sina Tayebati, Davide Ettori, Ranganath Krishnan, Amit Ranjan Trivedi
cs.AI
Abstract
Proponiamo SPARC, un framework leggero per l'apprendimento continuo per grandi modelli linguistici (LLM) che consente un'adattamento efficiente ai compiti attraverso l'ottimizzazione dei prompt in uno spazio a dimensione inferiore. Sfruttando l'analisi delle componenti principali (PCA), identifichiamo un sottospazio compatto dei dati di addestramento. Ottimizzare i prompt in questo spazio a dimensione inferiore migliora l'efficienza dell'addestramento, concentrandosi sugli aggiornamenti delle caratteristiche più rilevanti e riducendo il carico computazionale. Inoltre, poiché la struttura interna del modello rimane invariata, la vasta conoscenza acquisita dalla preformazione è completamente preservata, garantendo che le informazioni apprese in precedenza non siano compromesse durante l'adattamento. Il nostro metodo raggiunge un'elevata conservazione della conoscenza sia nei setup di apprendimento continuo incrementale per compiti che per dominio, raffinando solo lo 0,04% dei parametri del modello. Inoltre, integrando LoRA, miglioriamo l'adattabilità ai vincoli computazionali, consentendo un compromesso tra accuratezza e costo di addestramento. Gli esperimenti sul benchmark SuperGLUE dimostrano che la nostra ottimizzazione dei prompt basata su PCA combinata con LoRA mantiene la piena conservazione della conoscenza migliorando l'accuratezza, utilizzando solo l'1% dei parametri del modello. Questi risultati confermano che il nostro approccio è una soluzione scalabile ed efficiente in termini di risorse per l'apprendimento continuo nei LLM.
English
We propose SPARC, a lightweight continual learning framework for large
language models (LLMs) that enables efficient task adaptation through prompt
tuning in a lower-dimensional space. By leveraging principal component analysis
(PCA), we identify a compact subspace of the training data. Optimizing prompts
in this lower-dimensional space enhances training efficiency, as it focuses
updates on the most relevant features while reducing computational overhead.
Furthermore, since the model's internal structure remains unaltered, the
extensive knowledge gained from pretraining is fully preserved, ensuring that
previously learned information is not compromised during adaptation. Our method
achieves high knowledge retention in both task-incremental and
domain-incremental continual learning setups while fine-tuning only 0.04% of
the model's parameters. Additionally, by integrating LoRA, we enhance
adaptability to computational constraints, allowing for a tradeoff between
accuracy and training cost. Experiments on the SuperGLUE benchmark demonstrate
that our PCA-based prompt tuning combined with LoRA maintains full knowledge
retention while improving accuracy, utilizing only 1% of the model's
parameters. These results establish our approach as a scalable and
resource-efficient solution for continual learning in LLMs.Summary
AI-Generated Summary