WILDCHAT-50M: Uma Profundidade na Função dos Dados Sintéticos em Pós-Treinamento
WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training
January 30, 2025
Autores: Benjamin Feuer, Chinmay Hegde
cs.AI
Resumo
O pós-treinamento do modelo de linguagem (LLM), desde DPO até a destilação, pode refinar comportamentos e desbloquear novas habilidades, mas a ciência aberta que apoia essas técnicas de pós-treinamento ainda está em seus estágios iniciais. Um fator limitante tem sido a dificuldade de conduzir análises comparativas em larga escala de modelos geradores de dados sintéticos e juízes de LLM. Para preencher essa lacuna, apresentamos o WILDCHAT-50M, o maior conjunto de dados de bate-papo público até o momento. Estendemos o conjunto de dados WildChat existente para incluir respostas não apenas do GPT, mas de mais de 50 modelos de peso aberto diferentes, variando em tamanho de 0,5B a 104B parâmetros. Realizamos uma análise comparativa extensiva e demonstramos o potencial deste conjunto de dados ao criar o RE-WILD, nossa própria mistura pública de SFT, que supera a recente mistura de SFT Tulu-3 da Allen AI com apenas 40% do número de amostras. Nosso conjunto de dados, amostras e código estão disponíveis em https://github.com/penfever/wildchat-50m.
English
Language model (LLM) post-training, from DPO to distillation, can refine
behaviors and unlock new skills, but the open science supporting these
post-training techniques is still in its infancy. One limiting factor has been
the difficulty of conducting large-scale comparative analyses of synthetic data
generating models and LLM judges. To close this gap, we introduce WILDCHAT-50M,
the largest public chat dataset to date. We extend the existing WildChat
dataset to include responses not only from GPT, but from over 50 different
open-weight models, ranging in size from 0.5B to 104B parameters. We conduct an
extensive comparative analysis and demonstrate the potential of this dataset by
creating RE-WILD, our own public SFT mix, which outperforms the recent Tulu-3
SFT mixture from Allen AI with only 40% as many samples. Our dataset, samples
and code are available at https://github.com/penfever/wildchat-50m.Summary
AI-Generated Summary