Entrenamiento de Tardío a Temprano: Hacer que los LLM Aprendan Antes, para que sean Más Rápidos y Mejores

Resumen

A medida que los Grandes Modelos de Lenguaje (LLMs) logran un éxito empírico notable mediante el escalado del tamaño del modelo y de los datos, el preentrenamiento se ha vuelto cada vez más crítico pero computacionalmente prohibitivo, obstaculizando el desarrollo rápido. A pesar de la disponibilidad de numerosos LLMs preentrenados desarrollados con un coste computacional significativo, una pregunta fundamental del mundo real sigue sin explorarse suficientemente: ¿Podemos aprovechar los modelos pequeños preentrenados existentes para acelerar el entrenamiento de modelos más grandes? En este artículo, proponemos un paradigma de Entrenamiento de Tardío a Temprano (LET, por sus siglas en inglés) que permite a los LLMs aprender explícitamente conocimiento tardío en pasos y capas tempranas. La idea central es guiar las capas tempranas de un LLM durante el entrenamiento temprano utilizando representaciones de las capas tardías de un modelo preentrenado (es decir, en fase de entrenamiento tardío). Identificamos dos mecanismos clave que impulsan la efectividad de LET: el aprendizaje de paso tardío a temprano y el aprendizaje de capa tardía a temprana. Estos mecanismos aceleran significativamente la convergencia del entrenamiento, a la vez que mejoran de forma robusta tanto las capacidades de modelado del lenguaje como el rendimiento en tareas posteriores, permitiendo un entrenamiento más rápido con un rendimiento superior. Experimentos exhaustivos con modelos de 1.4B y 7B de parámetros demuestran la eficiencia y efectividad de LET. Notablemente, al entrenar un LLM de 1.4B en el conjunto de datos Pile, nuestro método logra una aceleración de hasta 1.6 veces con una mejora de casi un 5% en la precisión de las tareas posteriores en comparación con el entrenamiento estándar, incluso utilizando un modelo preentrenado con 10 veces menos parámetros que el modelo objetivo.

English

As Large Language Models (LLMs) achieve remarkable empirical success through scaling model and data size, pretraining has become increasingly critical yet computationally prohibitive, hindering rapid development. Despite the availability of numerous pretrained LLMs developed at significant computational expense, a fundamental real-world question remains underexplored: Can we leverage existing small pretrained models to accelerate the training of larger models? In this paper, we propose a Late-to-Early Training (LET) paradigm that enables LLMs to explicitly learn later knowledge in earlier steps and earlier layers. The core idea is to guide the early layers of an LLM during early training using representations from the late layers of a pretrained (i.e. late training phase) model. We identify two key mechanisms that drive LET's effectiveness: late-to-early-step learning and late-to-early-layer learning. These mechanisms significantly accelerate training convergence while robustly enhancing both language modeling capabilities and downstream task performance, enabling faster training with superior performance. Extensive experiments on 1.4B and 7B parameter models demonstrate LET's efficiency and effectiveness. Notably, when training a 1.4B LLM on the Pile dataset, our method achieves up to 1.6times speedup with nearly 5\% improvement in downstream task accuracy compared to standard training, even when using a pretrained model with 10times fewer parameters than the target model.

Entrenamiento de Tardío a Temprano: Hacer que los LLM Aprendan Antes, para que sean Más Rápidos y Mejores

Late-to-Early Training: LET LLMs Learn Earlier, So Faster and Better

Resumen

Support