YuLan-Mini: Un Modello Linguistico Aperto con Efficienza nei DatiYuLan-Mini: An Open Data-efficient Language Model
Il pre-addestramento efficace di grandi modelli linguistici (LLM) è stato difficile a causa delle immense richieste di risorse e della complessità dei processi tecnici coinvolti. Questo articolo presenta un dettagliato rapporto tecnico su YuLan-Mini, un modello di base altamente capace con 2,42 miliardi di parametri che raggiunge prestazioni di alto livello tra i modelli della stessa scala di parametri. Il nostro approccio al pre-addestramento si concentra sull'aumento dell'efficacia dell'addestramento attraverso tre importanti contributi tecnici: un elaborato flusso di dati che combina la pulizia dei dati con strategie di pianificazione dei dati, un robusto metodo di ottimizzazione per mitigare l'instabilità dell'addestramento e un efficace approccio di raffreddamento che incorpora la selezione mirata dei dati e l'addestramento a lungo contesto. In modo notevole, YuLan-Mini, addestrato su 1,08 trilioni di token, raggiunge prestazioni paragonabili ai modelli leader del settore che richiedono significativamente più dati. Per facilitare la riproducibilità, rilasciamo tutti i dettagli della composizione dei dati per ciascuna fase di addestramento. I dettagli del progetto sono accessibili al seguente link: https://github.com/RUC-GSAI/YuLan-Mini.