Управляемый LLM: Управляемая Эволюция для Сохранения Интеллекта в LLM
Control LLM: Controlled Evolution for Intelligence Retention in LLM
January 19, 2025
Авторы: Haichao Wei, Yunxiang Ren, Zhoutong Fu, Aman Lunia, Yi-Lin Chen, Alice Leung, Ya Xu
cs.AI
Аннотация
Большие языковые модели (LLM) требуют значительных вычислительных ресурсов, поэтому важно расширить их возможности без повторного обучения с нуля. Одной из ключевых проблем в этой области является катастрофическое забывание (CF), которое снижает производительность во время непрерывного предварительного обучения (CPT) и непрерывного надзорного дообучения (CSFT). Мы предлагаем Control LLM, новый подход, который использует параллельные предварительно обученные и расширенные блоки трансформера, выравнивая их скрытые состояния с помощью стратегий интерполяции. Этот метод эффективно сохраняет производительность на существующих задачах, одновременно интегрируя новые знания.
Обширные эксперименты демонстрируют эффективность Control LLM как в CPT, так и в CSFT. На Llama3.1-8B-Instruct он достигает значительных улучшений в математическом рассуждении (+14.4% на Math-Hard) и производительности кодирования (+10% на MBPP-PLUS). На Llama3.1-8B он улучшает многоязычные возможности (+10.6% на C-Eval, +6.8% на CMMLU и +30.2% на CMMLU-0shot-CoT). Он превосходит существующие методы и достигает SOTA среди моделей с открытым исходным кодом, настроенных на той же базовой модели, используя значительно меньше данных и вычислений. Критически важно, что эти достижения реализованы при сохранении сильных исходных возможностей, с минимальным ухудшением (<4.3% на MMLU) по сравнению с >35% в моделях математики и кодирования с открытым исходным кодом. Этот подход успешно применен в продуктах LinkedIn, работающих на базе искусственного интеллекта GenAI, для поиска работы и рекламных единиц.
Для поддержки дальнейших исследований мы выпускаем код обучения и оценки (https://github.com/linkedin/ControlLLM) вместе с моделями, обученными на общедоступных наборах данных (https://huggingface.co/ControlLLM) для сообщества.
English
Large Language Models (LLMs) demand significant computational resources,
making it essential to enhance their capabilities without retraining from
scratch. A key challenge in this domain is catastrophic forgetting
(CF), which hampers performance during Continuous Pre-training (CPT) and
Continuous Supervised Fine-Tuning (CSFT). We propose Control LLM, a
novel approach that leverages parallel pre-trained and expanded transformer
blocks, aligning their hidden-states through interpolation strategies This
method effectively preserves performance on existing tasks while seamlessly
integrating new knowledge.
Extensive experiments demonstrate the effectiveness of Control LLM in both
CPT and CSFT. On Llama3.1-8B-Instruct, it achieves significant improvements in
mathematical reasoning (+14.4% on Math-Hard) and coding performance (+10%
on MBPP-PLUS). On Llama3.1-8B, it enhances multilingual capabilities (+10.6%
on C-Eval, +6.8% on CMMLU, and +30.2% on CMMLU-0shot-CoT). It surpasses
existing methods and achieves SOTA among open-source models tuned from the same
base model, using substantially less data and compute. Crucially, these gains
are realized while preserving strong original capabilities, with minimal
degradation (<4.3% on MMLU) compared to >35% in open-source Math
and Coding models. This approach has been successfully deployed in LinkedIn's
GenAI-powered job seeker and Ads unit products.
To support further research, we release the training and evaluation code
(https://github.com/linkedin/ControlLLM) along with models trained on
public datasets ( https://huggingface.co/ControlLLM) to the community.Summary
AI-Generated Summary