WILDCHAT-50M : Une plongée approfondie dans le rôle des données synthétiques dans l'après-formation
WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training
January 30, 2025
Auteurs: Benjamin Feuer, Chinmay Hegde
cs.AI
Résumé
Le post-entraînement du modèle de langage (LLM), de la DPO à la distillation, peut affiner les comportements et débloquer de nouvelles compétences, mais la science ouverte soutenant ces techniques de post-entraînement en est encore à ses débuts. Un facteur limitant a été la difficulté de mener des analyses comparatives à grande échelle des modèles de génération de données synthétiques et des juges LLM. Pour combler cette lacune, nous présentons WILDCHAT-50M, le plus grand ensemble de données de chat public à ce jour. Nous étendons l'ensemble de données WildChat existant pour inclure des réponses non seulement de GPT, mais de plus de 50 modèles ouverts différents en poids, allant de 0,5 milliards à 104 milliards de paramètres. Nous menons une analyse comparative approfondie et démontrons le potentiel de cet ensemble de données en créant RE-WILD, notre propre mélange SFT public, qui surpasse le récent mélange SFT Tulu-3 d'Allen AI avec seulement 40 % du nombre d'échantillons. Notre ensemble de données, échantillons et code sont disponibles sur https://github.com/penfever/wildchat-50m.
English
Language model (LLM) post-training, from DPO to distillation, can refine
behaviors and unlock new skills, but the open science supporting these
post-training techniques is still in its infancy. One limiting factor has been
the difficulty of conducting large-scale comparative analyses of synthetic data
generating models and LLM judges. To close this gap, we introduce WILDCHAT-50M,
the largest public chat dataset to date. We extend the existing WildChat
dataset to include responses not only from GPT, but from over 50 different
open-weight models, ranging in size from 0.5B to 104B parameters. We conduct an
extensive comparative analysis and demonstrate the potential of this dataset by
creating RE-WILD, our own public SFT mix, which outperforms the recent Tulu-3
SFT mixture from Allen AI with only 40% as many samples. Our dataset, samples
and code are available at https://github.com/penfever/wildchat-50m.Summary
AI-Generated Summary