TÜLU 3: Spingendo i confini nel post-training del modello di linguaggio apertoTÜLU 3: Pushing Frontiers in Open Language Model Post-Training
Il post-addestramento del modello linguistico viene applicato per perfezionare comportamenti e sbloccare nuove abilità in un'ampia gamma di modelli linguistici recenti, ma le ricette aperte per l'applicazione di queste tecniche sono in ritardo rispetto a quelle proprietarie. I dati di addestramento sottostanti e le ricette per il post-addestramento sono contemporaneamente le parti più importanti del puzzle e la porzione con la minore trasparenza. Per colmare questa lacuna, presentiamo T\"ULU 3, una famiglia di modelli post-addestrati di ultima generazione completamente aperti, insieme ai relativi dati, codice e ricette di addestramento, che fungono da guida completa per le moderne tecniche di post-addestramento. T\"ULU 3, che si basa sui modelli di base Llama 3.1, ottiene risultati che superano le versioni istruttive di Llama 3.1, Qwen 2.5, Mistral, e persino modelli chiusi come GPT-4o-mini e Claude 3.5-Haiku. Gli algoritmi di addestramento per i nostri modelli includono il fine-tuning supervisionato (SFT), l'ottimizzazione diretta delle preferenze (DPO), e un nuovo metodo che chiamiamo Apprendimento per Rinforzo con Ricompense Verificabili (RLVR). Con T\"ULU 3, introduciamo uno schema di valutazione multi-task per le ricette di post-addestramento con valutazioni di sviluppo e non viste, implementazioni di benchmark standard e una sostanziale decontaminazione dei dataset aperti esistenti su tali benchmark. Concludiamo con un'analisi e una discussione dei metodi di addestramento che non hanno migliorato in modo affidabile le prestazioni. Oltre ai pesi del modello T\"ULU 3 e alla demo, rilasciamo la ricetta completa - comprensiva di dataset per varie competenze di base, un toolkit robusto per la cura e la valutazione dei dati, il codice di addestramento e l'infrastruttura, e, soprattutto, un rapporto dettagliato per riprodurre e adattare ulteriormente l'approccio T\"ULU 3 a più domini.