ChatPaper.aiChatPaper

SPARC: Adaptação de Prompt Consciente do Subespaço para Aprendizado Contínuo Robusto em LLMs

SPARC: Subspace-Aware Prompt Adaptation for Robust Continual Learning in LLMs

February 5, 2025
Autores: Dinithi Jayasuriya, Sina Tayebati, Davide Ettori, Ranganath Krishnan, Amit Ranjan Trivedi
cs.AI

Resumo

Propomos o SPARC, um framework leve de aprendizado contínuo para grandes modelos de linguagem (LLMs) que possibilita uma adaptação eficiente às tarefas por meio do ajuste de prompts em um espaço de menor dimensão. Ao utilizar a análise de componentes principais (PCA), identificamos um subespaço compacto dos dados de treinamento. A otimização de prompts nesse espaço de menor dimensão melhora a eficiência do treinamento, pois concentra as atualizações nos recursos mais relevantes, ao mesmo tempo que reduz a sobrecarga computacional. Além disso, como a estrutura interna do modelo permanece inalterada, o extenso conhecimento adquirido durante o pré-treinamento é totalmente preservado, garantindo que as informações previamente aprendidas não sejam comprometidas durante a adaptação. Nosso método alcança alta retenção de conhecimento tanto em configurações de aprendizado contínuo incremental de tarefas quanto de domínios, ao ajustar apenas 0,04% dos parâmetros do modelo. Adicionalmente, ao integrar LoRA, aprimoramos a adaptabilidade às restrições computacionais, permitindo um equilíbrio entre precisão e custo de treinamento. Experimentos no benchmark SuperGLUE demonstram que nosso ajuste de prompts baseado em PCA combinado com LoRA mantém a retenção total de conhecimento enquanto melhora a precisão, utilizando apenas 1% dos parâmetros do modelo. Esses resultados estabelecem nossa abordagem como uma solução escalável e eficiente em recursos para o aprendizado contínuo em LLMs.
English
We propose SPARC, a lightweight continual learning framework for large language models (LLMs) that enables efficient task adaptation through prompt tuning in a lower-dimensional space. By leveraging principal component analysis (PCA), we identify a compact subspace of the training data. Optimizing prompts in this lower-dimensional space enhances training efficiency, as it focuses updates on the most relevant features while reducing computational overhead. Furthermore, since the model's internal structure remains unaltered, the extensive knowledge gained from pretraining is fully preserved, ensuring that previously learned information is not compromised during adaptation. Our method achieves high knowledge retention in both task-incremental and domain-incremental continual learning setups while fine-tuning only 0.04% of the model's parameters. Additionally, by integrating LoRA, we enhance adaptability to computational constraints, allowing for a tradeoff between accuracy and training cost. Experiments on the SuperGLUE benchmark demonstrate that our PCA-based prompt tuning combined with LoRA maintains full knowledge retention while improving accuracy, utilizing only 1% of the model's parameters. These results establish our approach as a scalable and resource-efficient solution for continual learning in LLMs.

Summary

AI-Generated Summary

PDF22February 11, 2025