WILDCHAT-50M: Un Approfondimento sul Ruolo dei Dati Sintetici nel Post-Training
WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training
January 30, 2025
Autori: Benjamin Feuer, Chinmay Hegde
cs.AI
Abstract
Il post-addestramento del modello linguistico (LLM), dalla DPO alla distillazione, può perfezionare comportamenti e sbloccare nuove abilità, ma la scienza aperta che supporta queste tecniche di post-addestramento è ancora agli inizi. Un fattore limitante è stata la difficoltà di condurre analisi comparative su larga scala di modelli generativi di dati sintetici e giudici LLM. Per colmare questa lacuna, presentiamo WILDCHAT-50M, il più grande dataset pubblico di chat ad oggi. Estendiamo l'esistente dataset WildChat includendo risposte non solo da GPT, ma da oltre 50 diversi modelli open-weight, con dimensioni comprese tra 0,5 miliardi e 104 miliardi di parametri. Conduciamo un'ampia analisi comparativa e dimostriamo il potenziale di questo dataset creando RE-WILD, il nostro mix pubblico SFT, che supera il recente mix SFT Tulu-3 di Allen AI con solo il 40% dei campioni. Il nostro dataset, campioni e codice sono disponibili su https://github.com/penfever/wildchat-50m.
English
Language model (LLM) post-training, from DPO to distillation, can refine
behaviors and unlock new skills, but the open science supporting these
post-training techniques is still in its infancy. One limiting factor has been
the difficulty of conducting large-scale comparative analyses of synthetic data
generating models and LLM judges. To close this gap, we introduce WILDCHAT-50M,
the largest public chat dataset to date. We extend the existing WildChat
dataset to include responses not only from GPT, but from over 50 different
open-weight models, ranging in size from 0.5B to 104B parameters. We conduct an
extensive comparative analysis and demonstrate the potential of this dataset by
creating RE-WILD, our own public SFT mix, which outperforms the recent Tulu-3
SFT mixture from Allen AI with only 40% as many samples. Our dataset, samples
and code are available at https://github.com/penfever/wildchat-50m.Summary
AI-Generated Summary