ChatPaper.aiChatPaper

SPARC: Adattamento della Prompt Consapevole dello Sottospazio per un Apprendimento Continuo Robusto in LLM

SPARC: Subspace-Aware Prompt Adaptation for Robust Continual Learning in LLMs

February 5, 2025
Autori: Dinithi Jayasuriya, Sina Tayebati, Davide Ettori, Ranganath Krishnan, Amit Ranjan Trivedi
cs.AI

Abstract

Proponiamo SPARC, un framework leggero per l'apprendimento continuo per grandi modelli linguistici (LLM) che consente un'adattamento efficiente ai compiti attraverso l'ottimizzazione dei prompt in uno spazio a dimensione inferiore. Sfruttando l'analisi delle componenti principali (PCA), identifichiamo un sottospazio compatto dei dati di addestramento. Ottimizzare i prompt in questo spazio a dimensione inferiore migliora l'efficienza dell'addestramento, concentrandosi sugli aggiornamenti delle caratteristiche più rilevanti e riducendo il carico computazionale. Inoltre, poiché la struttura interna del modello rimane invariata, la vasta conoscenza acquisita dalla preformazione è completamente preservata, garantendo che le informazioni apprese in precedenza non siano compromesse durante l'adattamento. Il nostro metodo raggiunge un'elevata conservazione della conoscenza sia nei setup di apprendimento continuo incrementale per compiti che per dominio, raffinando solo lo 0,04% dei parametri del modello. Inoltre, integrando LoRA, miglioriamo l'adattabilità ai vincoli computazionali, consentendo un compromesso tra accuratezza e costo di addestramento. Gli esperimenti sul benchmark SuperGLUE dimostrano che la nostra ottimizzazione dei prompt basata su PCA combinata con LoRA mantiene la piena conservazione della conoscenza migliorando l'accuratezza, utilizzando solo l'1% dei parametri del modello. Questi risultati confermano che il nostro approccio è una soluzione scalabile ed efficiente in termini di risorse per l'apprendimento continuo nei LLM.
English
We propose SPARC, a lightweight continual learning framework for large language models (LLMs) that enables efficient task adaptation through prompt tuning in a lower-dimensional space. By leveraging principal component analysis (PCA), we identify a compact subspace of the training data. Optimizing prompts in this lower-dimensional space enhances training efficiency, as it focuses updates on the most relevant features while reducing computational overhead. Furthermore, since the model's internal structure remains unaltered, the extensive knowledge gained from pretraining is fully preserved, ensuring that previously learned information is not compromised during adaptation. Our method achieves high knowledge retention in both task-incremental and domain-incremental continual learning setups while fine-tuning only 0.04% of the model's parameters. Additionally, by integrating LoRA, we enhance adaptability to computational constraints, allowing for a tradeoff between accuracy and training cost. Experiments on the SuperGLUE benchmark demonstrate that our PCA-based prompt tuning combined with LoRA maintains full knowledge retention while improving accuracy, utilizing only 1% of the model's parameters. These results establish our approach as a scalable and resource-efficient solution for continual learning in LLMs.

Summary

AI-Generated Summary

PDF22February 11, 2025