WILDCHAT-50M: Eine eingehende Untersuchung der Rolle von synthetischen Daten im Anschluss-Training
WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training
January 30, 2025
Autoren: Benjamin Feuer, Chinmay Hegde
cs.AI
Zusammenfassung
Die Post-Training-Phase des Sprachmodells (LLM) von DPO bis hin zur Destillation kann Verhaltensweisen verfeinern und neue Fähigkeiten freisetzen, aber die offene Wissenschaft, die diese post-training Techniken unterstützt, steckt noch in den Kinderschuhen. Ein begrenzender Faktor war die Schwierigkeit, groß angelegte vergleichende Analysen von Modellen zur Generierung synthetischer Daten und LLM-Richtern durchzuführen. Um diese Lücke zu schließen, stellen wir WILDCHAT-50M vor, den bisher größten öffentlichen Chat-Datensatz. Wir erweitern den bestehenden WildChat-Datensatz um Antworten nicht nur von GPT, sondern von über 50 verschiedenen Open-Weight-Modellen, die in der Größe von 0,5B bis 104B Parametern variieren. Wir führen eine umfangreiche vergleichende Analyse durch und zeigen das Potenzial dieses Datensatzes, indem wir RE-WILD erstellen, unsere eigene öffentliche SFT-Mischung, die die kürzlich veröffentlichte Tulu-3 SFT-Mischung von Allen AI mit nur 40% so vielen Beispielen übertrifft. Unser Datensatz, Beispiele und Code sind unter https://github.com/penfever/wildchat-50m verfügbar.
English
Language model (LLM) post-training, from DPO to distillation, can refine
behaviors and unlock new skills, but the open science supporting these
post-training techniques is still in its infancy. One limiting factor has been
the difficulty of conducting large-scale comparative analyses of synthetic data
generating models and LLM judges. To close this gap, we introduce WILDCHAT-50M,
the largest public chat dataset to date. We extend the existing WildChat
dataset to include responses not only from GPT, but from over 50 different
open-weight models, ranging in size from 0.5B to 104B parameters. We conduct an
extensive comparative analysis and demonstrate the potential of this dataset by
creating RE-WILD, our own public SFT mix, which outperforms the recent Tulu-3
SFT mixture from Allen AI with only 40% as many samples. Our dataset, samples
and code are available at https://github.com/penfever/wildchat-50m.Summary
AI-Generated Summary