SPARC: Адаптация подсистем с учетом подпространства для надежного непрерывного обучения в LLM.
SPARC: Subspace-Aware Prompt Adaptation for Robust Continual Learning in LLMs
February 5, 2025
Авторы: Dinithi Jayasuriya, Sina Tayebati, Davide Ettori, Ranganath Krishnan, Amit Ranjan Trivedi
cs.AI
Аннотация
Мы предлагаем SPARC, легковесную фреймворк для непрерывного обучения больших языковых моделей (LLM), который обеспечивает эффективную адаптацию к задачам через настройку подсказок в пространстве меньшей размерности. Используя метод анализа главных компонент (PCA), мы определяем компактное подпространство обучающих данных. Оптимизация подсказок в этом пространстве меньшей размерности повышает эффективность обучения, поскольку сосредотачивает обновления на наиболее значимых признаках, снижая вычислительные затраты. Более того, поскольку внутренняя структура модели остается неизменной, обширные знания, полученные в процессе предварительного обучения, полностью сохраняются, обеспечивая сохранение ранее усвоенной информации во время адаптации. Наш метод достигает высокой сохраняемости знаний как в нарастающих по задачам, так и в нарастающих по доменам сценариях непрерывного обучения, при этом перенастраивая всего лишь 0,04% параметров модели. Кроме того, интегрируя LoRA, мы улучшаем адаптивность к вычислительным ограничениям, позволяя находить компромисс между точностью и стоимостью обучения. Эксперименты на бенчмарке SuperGLUE показывают, что наша настройка подсказок на основе PCA в сочетании с LoRA сохраняет полное знание, повышая точность и используя всего 1% параметров модели. Эти результаты подтверждают, что наш подход является масштабируемым и ресурсоэффективным решением для непрерывного обучения в LLM.
English
We propose SPARC, a lightweight continual learning framework for large
language models (LLMs) that enables efficient task adaptation through prompt
tuning in a lower-dimensional space. By leveraging principal component analysis
(PCA), we identify a compact subspace of the training data. Optimizing prompts
in this lower-dimensional space enhances training efficiency, as it focuses
updates on the most relevant features while reducing computational overhead.
Furthermore, since the model's internal structure remains unaltered, the
extensive knowledge gained from pretraining is fully preserved, ensuring that
previously learned information is not compromised during adaptation. Our method
achieves high knowledge retention in both task-incremental and
domain-incremental continual learning setups while fine-tuning only 0.04% of
the model's parameters. Additionally, by integrating LoRA, we enhance
adaptability to computational constraints, allowing for a tradeoff between
accuracy and training cost. Experiments on the SuperGLUE benchmark demonstrate
that our PCA-based prompt tuning combined with LoRA maintains full knowledge
retention while improving accuracy, utilizing only 1% of the model's
parameters. These results establish our approach as a scalable and
resource-efficient solution for continual learning in LLMs.Summary
AI-Generated Summary