ChatPaper.aiChatPaper

Controllo LLM: Evoluzione Controllata per il Mantenimento dell'Intelligenza in LLM

Control LLM: Controlled Evolution for Intelligence Retention in LLM

January 19, 2025
Autori: Haichao Wei, Yunxiang Ren, Zhoutong Fu, Aman Lunia, Yi-Lin Chen, Alice Leung, Ya Xu
cs.AI

Abstract

I Large Language Models (LLM) richiedono significativi risorse computazionali, rendendo essenziale potenziarne le capacità senza doverli riallenare da zero. Una sfida chiave in questo ambito è il dimenticamento catastrofico (CF), che compromette le prestazioni durante il Pre-training Continuo (CPT) e il Fine-Tuning Supervisionato Continuo (CSFT). Proponiamo Control LLM, un approccio innovativo che sfrutta blocchi di trasformatori pre-addestrati ed espansi in parallelo, allineando i loro stati nascosti attraverso strategie di interpolazione. Questo metodo preserva efficacemente le prestazioni su compiti esistenti integrando senza soluzione di continuità nuove conoscenze. Estesi esperimenti dimostrano l'efficacia di Control LLM sia in CPT che in CSFT. Su Llama3.1-8B-Instruct, ottiene significativi miglioramenti nel ragionamento matematico (+14,4% su Math-Hard) e nelle prestazioni di codifica (+10% su MBPP-PLUS). Su Llama3.1-8B, potenzia le capacità multilingue (+10,6% su C-Eval, +6,8% su CMMLU e +30,2% su CMMLU-0shot-CoT). Supera i metodi esistenti e raggiunge lo stato dell'arte tra i modelli open-source ottimizzati dallo stesso modello di base, utilizzando notevolmente meno dati e calcoli. Crucialmente, questi progressi sono realizzati preservando solide capacità originali, con una degradazione minima (<4,3% su MMLU) rispetto a oltre il 35% nei modelli open-source di matematica e codifica. Questo approccio è stato implementato con successo nei prodotti unitari di ricerca di lavoro e annunci di LinkedIn potenziati da GenAI. Per supportare ulteriori ricerche, rilasciamo il codice di addestramento e valutazione (https://github.com/linkedin/ControlLLM) insieme ai modelli addestrati su set di dati pubblici (https://huggingface.co/ControlLLM) alla comunità.
English
Large Language Models (LLMs) demand significant computational resources, making it essential to enhance their capabilities without retraining from scratch. A key challenge in this domain is catastrophic forgetting (CF), which hampers performance during Continuous Pre-training (CPT) and Continuous Supervised Fine-Tuning (CSFT). We propose Control LLM, a novel approach that leverages parallel pre-trained and expanded transformer blocks, aligning their hidden-states through interpolation strategies This method effectively preserves performance on existing tasks while seamlessly integrating new knowledge. Extensive experiments demonstrate the effectiveness of Control LLM in both CPT and CSFT. On Llama3.1-8B-Instruct, it achieves significant improvements in mathematical reasoning (+14.4% on Math-Hard) and coding performance (+10% on MBPP-PLUS). On Llama3.1-8B, it enhances multilingual capabilities (+10.6% on C-Eval, +6.8% on CMMLU, and +30.2% on CMMLU-0shot-CoT). It surpasses existing methods and achieves SOTA among open-source models tuned from the same base model, using substantially less data and compute. Crucially, these gains are realized while preserving strong original capabilities, with minimal degradation (<4.3% on MMLU) compared to >35% in open-source Math and Coding models. This approach has been successfully deployed in LinkedIn's GenAI-powered job seeker and Ads unit products. To support further research, we release the training and evaluation code (https://github.com/linkedin/ControlLLM) along with models trained on public datasets ( https://huggingface.co/ControlLLM) to the community.

Summary

AI-Generated Summary

PDF62January 24, 2025