TÜLU 3 : Repousser les frontières dans la post-formation de modèles de langage ouvertsTÜLU 3: Pushing Frontiers in Open Language Model Post-Training
Le post-entraînement des modèles de langage est appliqué pour affiner les comportements et débloquer de nouvelles compétences à travers un large éventail de modèles de langage récents, mais les recettes ouvertes pour appliquer ces techniques sont en retard par rapport aux recettes propriétaires. Les données d'entraînement sous-jacentes et les recettes pour le post-entraînement sont simultanément les pièces les plus importantes du puzzle et la partie la moins transparente. Pour combler cet écart, nous présentons TÜLU 3, une famille de modèles post-entraînés de pointe entièrement ouverts, accompagnée de ses données, de son code et de ses recettes d'entraînement, servant de guide complet pour les techniques modernes de post-entraînement. TÜLU 3, qui s'appuie sur les modèles de base Llama 3.1, obtient des résultats dépassant les versions instruct de Llama 3.1, Qwen 2.5, Mistral, et même des modèles fermés tels que GPT-4o-mini et Claude 3.5-Haiku. Les algorithmes d'entraînement pour nos modèles comprennent le fine-tuning supervisé (SFT), l'optimisation directe des préférences (DPO), et une nouvelle méthode que nous appelons l'apprentissage par renforcement avec des récompenses vérifiables (RLVR). Avec TÜLU 3, nous introduisons un schéma d'évaluation multi-tâches pour les recettes de post-entraînement avec des évaluations de développement et non vues, des implémentations de référence standard, et une décontamination substantielle des ensembles de données ouverts existants sur lesdits bancs d'essai. Nous concluons par une analyse et une discussion des méthodes d'entraînement qui n'ont pas amélioré de manière fiable les performances. En plus des poids et de la démonstration du modèle TÜLU 3, nous publions la recette complète, y compris les ensembles de données pour des compétences de base diverses, une boîte à outils robuste pour la curation et l'évaluation des données, le code d'entraînement et l'infrastructure, et, surtout, un rapport détaillé pour reproduire et adapter davantage l'approche TÜLU 3 à d'autres domaines.