Control LLM: Evolución Controlada para la Retención de Inteligencia en LLM
Control LLM: Controlled Evolution for Intelligence Retention in LLM
January 19, 2025
Autores: Haichao Wei, Yunxiang Ren, Zhoutong Fu, Aman Lunia, Yi-Lin Chen, Alice Leung, Ya Xu
cs.AI
Resumen
Los Modelos de Lenguaje Grandes (LLMs) requieren recursos computacionales significativos, por lo que es esencial mejorar sus capacidades sin tener que volver a entrenar desde cero. Un desafío clave en este ámbito es el olvido catastrófico (CF), que afecta el rendimiento durante el Pre-entrenamiento Continuo (CPT) y el Ajuste Fino Supervisado Continuo (CSFT). Proponemos Control LLM, un enfoque novedoso que aprovecha bloques de transformadores pre-entrenados y expandidos en paralelo, alineando sus estados ocultos a través de estrategias de interpolación. Este método preserva eficazmente el rendimiento en tareas existentes al integrar sin problemas nuevos conocimientos.
Experimentos extensos demuestran la efectividad de Control LLM tanto en CPT como en CSFT. En Llama3.1-8B-Instruct, logra mejoras significativas en razonamiento matemático (+14.4% en Math-Hard) y rendimiento de codificación (+10% en MBPP-PLUS). En Llama3.1-8B, mejora las capacidades multilingües (+10.6% en C-Eval, +6.8% en CMMLU y +30.2% en CMMLU-0shot-CoT). Supera a los métodos existentes y logra el estado del arte entre los modelos de código abierto ajustados desde el mismo modelo base, utilizando considerablemente menos datos y recursos computacionales. Esencialmente, estos avances se realizan preservando sólidas capacidades originales, con una degradación mínima (<4.3% en MMLU) en comparación con >35% en modelos de matemáticas y codificación de código abierto. Este enfoque ha sido implementado con éxito en los productos de LinkedIn para buscadores de empleo y unidades de anuncios impulsados por GenAI.
Para apoyar investigaciones adicionales, liberamos el código de entrenamiento y evaluación (https://github.com/linkedin/ControlLLM) junto con modelos entrenados en conjuntos de datos públicos (https://huggingface.co/ControlLLM) a la comunidad.
English
Large Language Models (LLMs) demand significant computational resources,
making it essential to enhance their capabilities without retraining from
scratch. A key challenge in this domain is catastrophic forgetting
(CF), which hampers performance during Continuous Pre-training (CPT) and
Continuous Supervised Fine-Tuning (CSFT). We propose Control LLM, a
novel approach that leverages parallel pre-trained and expanded transformer
blocks, aligning their hidden-states through interpolation strategies This
method effectively preserves performance on existing tasks while seamlessly
integrating new knowledge.
Extensive experiments demonstrate the effectiveness of Control LLM in both
CPT and CSFT. On Llama3.1-8B-Instruct, it achieves significant improvements in
mathematical reasoning (+14.4% on Math-Hard) and coding performance (+10%
on MBPP-PLUS). On Llama3.1-8B, it enhances multilingual capabilities (+10.6%
on C-Eval, +6.8% on CMMLU, and +30.2% on CMMLU-0shot-CoT). It surpasses
existing methods and achieves SOTA among open-source models tuned from the same
base model, using substantially less data and compute. Crucially, these gains
are realized while preserving strong original capabilities, with minimal
degradation (<4.3% on MMLU) compared to >35% in open-source Math
and Coding models. This approach has been successfully deployed in LinkedIn's
GenAI-powered job seeker and Ads unit products.
To support further research, we release the training and evaluation code
(https://github.com/linkedin/ControlLLM) along with models trained on
public datasets ( https://huggingface.co/ControlLLM) to the community.Summary
AI-Generated Summary