Allenamento dal Tardivo al Precoce: FAR APPRENDERE PRIMA I LLM, PER UNA FORMAZIONE PIÙ RAPIDA E MIGLIORE

Abstract

Mentre i Large Language Model (LLM) ottengono un notevole successo empirico grazie al ridimensionamento delle dimensioni del modello e dei dati, il pre-addestramento è diventato sempre più critico ma computazionalmente proibitivo, ostacolando uno sviluppo rapido. Nonostante la disponibilità di numerosi LLM pre-addestrati sviluppati con un costo computazionale significativo, una domanda fondamentale nel mondo reale rimane poco esplorata: possiamo sfruttare modelli pre-addestrati più piccoli esistenti per accelerare l'addestramento di modelli più grandi? In questo articolo, proponiamo un paradigma di Addestramento da Tardo a Precoce (LET) che consente agli LLM di apprendere esplicitamente conoscenze successive in fasi e livelli precedenti. L'idea centrale è guidare i livelli iniziali di un LLM durante le prime fasi di addestramento utilizzando rappresentazioni provenienti dai livelli finali di un modello pre-addestrato (cioè in fase di addestramento avanzato). Identifichiamo due meccanismi chiave che guidano l'efficacia di LET: l'apprendimento da passo-tardo a passo-precoce e l'apprendimento da livello-tardo a livello-precoce. Questi meccanismi accelerano significativamente la convergenza dell'addestramento, migliorando in modo robusto sia le capacità di modellazione del linguaggio che le prestazioni sui task downstream, consentendo un addestramento più rapido con prestazioni superiori. Esperimenti estesi su modelli da 1.4B e 7B di parametri dimostrano l'efficienza e l'efficacia di LET. In modo significativo, durante l'addestramento di un LLM da 1.4B sul dataset Pile, il nostro metodo raggiunge un'accelerazione fino a 1.6 volte con un miglioramento di quasi il 5% nell'accuratezza sui task downstream rispetto all'addestramento standard, anche utilizzando un modello pre-addestrato con 10 volte meno parametri del modello target.

English

As Large Language Models (LLMs) achieve remarkable empirical success through scaling model and data size, pretraining has become increasingly critical yet computationally prohibitive, hindering rapid development. Despite the availability of numerous pretrained LLMs developed at significant computational expense, a fundamental real-world question remains underexplored: Can we leverage existing small pretrained models to accelerate the training of larger models? In this paper, we propose a Late-to-Early Training (LET) paradigm that enables LLMs to explicitly learn later knowledge in earlier steps and earlier layers. The core idea is to guide the early layers of an LLM during early training using representations from the late layers of a pretrained (i.e. late training phase) model. We identify two key mechanisms that drive LET's effectiveness: late-to-early-step learning and late-to-early-layer learning. These mechanisms significantly accelerate training convergence while robustly enhancing both language modeling capabilities and downstream task performance, enabling faster training with superior performance. Extensive experiments on 1.4B and 7B parameter models demonstrate LET's efficiency and effectiveness. Notably, when training a 1.4B LLM on the Pile dataset, our method achieves up to 1.6times speedup with nearly 5\% improvement in downstream task accuracy compared to standard training, even when using a pretrained model with 10times fewer parameters than the target model.

Allenamento dal Tardivo al Precoce: FAR APPRENDERE PRIMA I LLM, PER UNA FORMAZIONE PIÙ RAPIDA E MIGLIORE

Late-to-Early Training: LET LLMs Learn Earlier, So Faster and Better

Abstract

Support