ChatPaper.aiChatPaper

TÜLU 3 : Repousser les frontières dans la post-formation de modèles de langage ouverts

TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

November 22, 2024
Auteurs: Nathan Lambert, Jacob Morrison, Valentina Pyatkin, Shengyi Huang, Hamish Ivison, Faeze Brahman, Lester James V. Miranda, Alisa Liu, Nouha Dziri, Shane Lyu, Yuling Gu, Saumya Malik, Victoria Graf, Jena D. Hwang, Jiangjiang Yang, Ronan Le Bras, Oyvind Tafjord, Chris Wilhelm, Luca Soldaini, Noah A. Smith, Yizhong Wang, Pradeep Dasigi, Hannaneh Hajishirzi
cs.AI

Résumé

Le post-entraînement des modèles de langage est appliqué pour affiner les comportements et débloquer de nouvelles compétences à travers un large éventail de modèles de langage récents, mais les recettes ouvertes pour appliquer ces techniques sont en retard par rapport aux recettes propriétaires. Les données d'entraînement sous-jacentes et les recettes pour le post-entraînement sont simultanément les pièces les plus importantes du puzzle et la partie la moins transparente. Pour combler cet écart, nous présentons TÜLU 3, une famille de modèles post-entraînés de pointe entièrement ouverts, accompagnée de ses données, de son code et de ses recettes d'entraînement, servant de guide complet pour les techniques modernes de post-entraînement. TÜLU 3, qui s'appuie sur les modèles de base Llama 3.1, obtient des résultats dépassant les versions instruct de Llama 3.1, Qwen 2.5, Mistral, et même des modèles fermés tels que GPT-4o-mini et Claude 3.5-Haiku. Les algorithmes d'entraînement pour nos modèles comprennent le fine-tuning supervisé (SFT), l'optimisation directe des préférences (DPO), et une nouvelle méthode que nous appelons l'apprentissage par renforcement avec des récompenses vérifiables (RLVR). Avec TÜLU 3, nous introduisons un schéma d'évaluation multi-tâches pour les recettes de post-entraînement avec des évaluations de développement et non vues, des implémentations de référence standard, et une décontamination substantielle des ensembles de données ouverts existants sur lesdits bancs d'essai. Nous concluons par une analyse et une discussion des méthodes d'entraînement qui n'ont pas amélioré de manière fiable les performances. En plus des poids et de la démonstration du modèle TÜLU 3, nous publions la recette complète, y compris les ensembles de données pour des compétences de base diverses, une boîte à outils robuste pour la curation et l'évaluation des données, le code d'entraînement et l'infrastructure, et, surtout, un rapport détaillé pour reproduire et adapter davantage l'approche TÜLU 3 à d'autres domaines.
English
Language model post-training is applied to refine behaviors and unlock new skills across a wide range of recent language models, but open recipes for applying these techniques lag behind proprietary ones. The underlying training data and recipes for post-training are simultaneously the most important pieces of the puzzle and the portion with the least transparency. To bridge this gap, we introduce T\"ULU 3, a family of fully-open state-of-the-art post-trained models, alongside its data, code, and training recipes, serving as a comprehensive guide for modern post-training techniques. T\"ULU 3, which builds on Llama 3.1 base models, achieves results surpassing the instruct versions of Llama 3.1, Qwen 2.5, Mistral, and even closed models such as GPT-4o-mini and Claude 3.5-Haiku. The training algorithms for our models include supervised finetuning (SFT), Direct Preference Optimization (DPO), and a novel method we call Reinforcement Learning with Verifiable Rewards (RLVR). With T\"ULU 3, we introduce a multi-task evaluation scheme for post-training recipes with development and unseen evaluations, standard benchmark implementations, and substantial decontamination of existing open datasets on said benchmarks. We conclude with analysis and discussion of training methods that did not reliably improve performance. In addition to the T\"ULU 3 model weights and demo, we release the complete recipe -- including datasets for diverse core skills, a robust toolkit for data curation and evaluation, the training code and infrastructure, and, most importantly, a detailed report for reproducing and further adapting the T\"ULU 3 approach to more domains.
PDF652November 25, 2024