ChatPaper.aiChatPaper

SPARC: Unterraum-bewusste Prompt-Anpassung für robustes kontinuierliches Lernen in LLMs

SPARC: Subspace-Aware Prompt Adaptation for Robust Continual Learning in LLMs

February 5, 2025
Autoren: Dinithi Jayasuriya, Sina Tayebati, Davide Ettori, Ranganath Krishnan, Amit Ranjan Trivedi
cs.AI

Zusammenfassung

Wir schlagen SPARC vor, ein leichtgewichtiges kontinuierliches Lernframework für große Sprachmodelle (LLMs), das eine effiziente Anpassung an Aufgaben durch Prompt-Feinabstimmung in einem niedrigdimensionalen Raum ermöglicht. Durch die Nutzung der Hauptkomponentenanalyse (PCA) identifizieren wir einen kompakten Unterraum der Trainingsdaten. Die Optimierung von Prompts in diesem niedrigdimensionalen Raum verbessert die Trainingseffizienz, da sie Aktualisierungen auf die relevantesten Merkmale konzentriert und den Rechenaufwand reduziert. Darüber hinaus bleibt die interne Struktur des Modells unverändert, wodurch das umfangreiche Wissen aus dem Pretraining vollständig erhalten bleibt und sichergestellt wird, dass zuvor gelernte Informationen während der Anpassung nicht beeinträchtigt werden. Unsere Methode erzielt eine hohe Wissensretention sowohl in inkrementellen Aufgaben- als auch in inkrementellen Domänenkontinuierlichen Lernszenarien, während nur 0,04% der Modellparameter feinabgestimmt werden. Durch die Integration von LoRA verbessern wir die Anpassungsfähigkeit an Rechenbeschränkungen, was einen Kompromiss zwischen Genauigkeit und Trainingskosten ermöglicht. Experimente am SuperGLUE-Benchmark zeigen, dass unsere PCA-basierte Prompt-Feinabstimmung in Kombination mit LoRA die volle Wissensretention gewährleistet und die Genauigkeit verbessert, wobei nur 1% der Modellparameter verwendet werden. Diese Ergebnisse etablieren unseren Ansatz als eine skalierbare und ressourceneffiziente Lösung für kontinuierliches Lernen in LLMs.
English
We propose SPARC, a lightweight continual learning framework for large language models (LLMs) that enables efficient task adaptation through prompt tuning in a lower-dimensional space. By leveraging principal component analysis (PCA), we identify a compact subspace of the training data. Optimizing prompts in this lower-dimensional space enhances training efficiency, as it focuses updates on the most relevant features while reducing computational overhead. Furthermore, since the model's internal structure remains unaltered, the extensive knowledge gained from pretraining is fully preserved, ensuring that previously learned information is not compromised during adaptation. Our method achieves high knowledge retention in both task-incremental and domain-incremental continual learning setups while fine-tuning only 0.04% of the model's parameters. Additionally, by integrating LoRA, we enhance adaptability to computational constraints, allowing for a tradeoff between accuracy and training cost. Experiments on the SuperGLUE benchmark demonstrate that our PCA-based prompt tuning combined with LoRA maintains full knowledge retention while improving accuracy, utilizing only 1% of the model's parameters. These results establish our approach as a scalable and resource-efficient solution for continual learning in LLMs.

Summary

AI-Generated Summary

PDF22February 11, 2025