Entrenamiento Continuo Eficiente mediante la Mitigación de la Brecha de Estabilidad
Efficient Continual Pre-training by Mitigating the Stability Gap
June 21, 2024
Autores: Yiduo Guo, Jie Fu, Huishuai Zhang, Dongyan Zhao, Yikang Shen
cs.AI
Resumen
El preentrenamiento continuo se ha convertido cada vez más en el enfoque predominante para adaptar los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) a nuevos dominios. Este proceso implica actualizar el LLM preentrenado con un corpus de un nuevo dominio, lo que resulta en un cambio en la distribución del entrenamiento. Para estudiar el comportamiento de los LLMs durante este cambio, medimos el rendimiento del modelo a lo largo del proceso de preentrenamiento continuo. Observamos una caída temporal en el rendimiento al principio, seguida de una fase de recuperación, un fenómeno conocido como la "brecha de estabilidad", previamente observado en modelos de visión al clasificar nuevas clases. Para abordar este problema y mejorar el rendimiento de los LLMs dentro de un presupuesto fijo de cómputo, proponemos tres estrategias efectivas: (1) Preentrenar continuamente el LLM en un subconjunto de tamaño adecuado durante múltiples épocas, lo que resulta en una recuperación más rápida del rendimiento en comparación con preentrenar el LLM en un corpus grande en una sola época; (2) Preentrenar el LLM solo en un subcorpus de alta calidad, lo que aumenta rápidamente el rendimiento en el dominio; y (3) Usar una mezcla de datos similar a los datos de preentrenamiento para reducir la brecha de distribución. Realizamos varios experimentos en modelos de la familia Llama para validar la efectividad de nuestras estrategias tanto en el preentrenamiento continuo médico como en el ajuste por instrucciones. Por ejemplo, nuestras estrategias mejoran el rendimiento promedio en tareas médicas del modelo OpenLlama-3B del 36.2% al 40.7% con solo el 40% del presupuesto original de entrenamiento y mejoran el rendimiento promedio en tareas generales sin causar olvido. Además, aplicamos nuestras estrategias al modelo Llama-3-8B. El modelo resultante, Llama-3-Physician, logra el mejor rendimiento médico entre los modelos de código abierto actuales y se desempeña de manera comparable o incluso mejor que GPT-4 en varios benchmarks médicos. Publicamos nuestros modelos en https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.
English
Continual pre-training has increasingly become the predominant approach for
adapting Large Language Models (LLMs) to new domains. This process involves
updating the pre-trained LLM with a corpus from a new domain, resulting in a
shift in the training distribution. To study the behavior of LLMs during this
shift, we measured the model's performance throughout the continual
pre-training process. we observed a temporary performance drop at the
beginning, followed by a recovery phase, a phenomenon known as the "stability
gap," previously noted in vision models classifying new classes. To address
this issue and enhance LLM performance within a fixed compute budget, we
propose three effective strategies: (1) Continually pre-training the LLM on a
subset with a proper size for multiple epochs, resulting in faster performance
recovery than pre-training the LLM on a large corpus in a single epoch; (2)
Pre-training the LLM only on high-quality sub-corpus, which rapidly boosts
domain performance; and (3) Using a data mixture similar to the pre-training
data to reduce distribution gap. We conduct various experiments on Llama-family
models to validate the effectiveness of our strategies in both medical
continual pre-training and instruction tuning. For example, our strategies
improve the average medical task performance of the OpenLlama-3B model from
36.2% to 40.7% with only 40% of the original training budget and enhance the
average general task performance without causing forgetting. Furthermore, we
apply our strategies to the Llama-3-8B model. The resulting model,
Llama-3-Physician, achieves the best medical performance among current
open-source models, and performs comparably to or even better than GPT-4 on
several medical benchmarks. We release our models at
https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.Summary
AI-Generated Summary