ChatPaper.aiChatPaper

WILDCHAT-50M : Une plongée approfondie dans le rôle des données synthétiques dans l'après-formation

WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training

January 30, 2025
Auteurs: Benjamin Feuer, Chinmay Hegde
cs.AI

Résumé

Le post-entraînement du modèle de langage (LLM), de la DPO à la distillation, peut affiner les comportements et débloquer de nouvelles compétences, mais la science ouverte soutenant ces techniques de post-entraînement en est encore à ses débuts. Un facteur limitant a été la difficulté de mener des analyses comparatives à grande échelle des modèles de génération de données synthétiques et des juges LLM. Pour combler cette lacune, nous présentons WILDCHAT-50M, le plus grand ensemble de données de chat public à ce jour. Nous étendons l'ensemble de données WildChat existant pour inclure des réponses non seulement de GPT, mais de plus de 50 modèles ouverts différents en poids, allant de 0,5 milliards à 104 milliards de paramètres. Nous menons une analyse comparative approfondie et démontrons le potentiel de cet ensemble de données en créant RE-WILD, notre propre mélange SFT public, qui surpasse le récent mélange SFT Tulu-3 d'Allen AI avec seulement 40 % du nombre d'échantillons. Notre ensemble de données, échantillons et code sont disponibles sur https://github.com/penfever/wildchat-50m.
English
Language model (LLM) post-training, from DPO to distillation, can refine behaviors and unlock new skills, but the open science supporting these post-training techniques is still in its infancy. One limiting factor has been the difficulty of conducting large-scale comparative analyses of synthetic data generating models and LLM judges. To close this gap, we introduce WILDCHAT-50M, the largest public chat dataset to date. We extend the existing WildChat dataset to include responses not only from GPT, but from over 50 different open-weight models, ranging in size from 0.5B to 104B parameters. We conduct an extensive comparative analysis and demonstrate the potential of this dataset by creating RE-WILD, our own public SFT mix, which outperforms the recent Tulu-3 SFT mixture from Allen AI with only 40% as many samples. Our dataset, samples and code are available at https://github.com/penfever/wildchat-50m.

Summary

AI-Generated Summary

PDF204January 31, 2025