WILDCHAT-50M: 合成データの役割についての詳細調査
WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training
January 30, 2025
著者: Benjamin Feuer, Chinmay Hegde
cs.AI
要旨
言語モデル(LLM)の事後トレーニングは、DPOから蒸留に至るまで、振る舞いを洗練させ新しいスキルを開拓することができますが、これらの事後トレーニング技術を支持するオープンサイエンスはまだ初期段階にあります。これまでの制約要因の1つは、合成データ生成モデルとLLMジャッジの大規模な比較分析を行う難しさでした。このギャップを埋めるために、私たちはこれまでで最大のパブリックチャットデータセットであるWILDCHAT-50Mを紹介します。既存のWildChatデータセットを拡張し、GPTだけでなく、0.5Bから104Bのパラメータを持つ50以上の異なるオープンウェイトモデルからの応答を含めました。私たちは包括的な比較分析を実施し、このデータセットの可能性を示すために、Allen AIのTulu-3 SFT混合物を40%のサンプル数で上回る、私たち自身の公開SFTミックスであるRE-WILDを作成しました。当該データセット、サンプル、およびコードは、https://github.com/penfever/wildchat-50m で入手可能です。
English
Language model (LLM) post-training, from DPO to distillation, can refine
behaviors and unlock new skills, but the open science supporting these
post-training techniques is still in its infancy. One limiting factor has been
the difficulty of conducting large-scale comparative analyses of synthetic data
generating models and LLM judges. To close this gap, we introduce WILDCHAT-50M,
the largest public chat dataset to date. We extend the existing WildChat
dataset to include responses not only from GPT, but from over 50 different
open-weight models, ranging in size from 0.5B to 104B parameters. We conduct an
extensive comparative analysis and demonstrate the potential of this dataset by
creating RE-WILD, our own public SFT mix, which outperforms the recent Tulu-3
SFT mixture from Allen AI with only 40% as many samples. Our dataset, samples
and code are available at https://github.com/penfever/wildchat-50m.Summary
AI-Generated Summary