ChatPaper.aiChatPaper

WILDCHAT-50M: Глубокое исследование роли синтетических данных в Посттренировочном этапе

WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training

January 30, 2025
Авторы: Benjamin Feuer, Chinmay Hegde
cs.AI

Аннотация

Посттренировочная настройка языковой модели (LLM) от DPO до дистилляции может улучшить поведение и разблокировать новые навыки, однако открытая наука, поддерживающая эти техники посттренировочной настройки, все еще находится в зачаточном состоянии. Одним из ограничивающих факторов была сложность проведения масштабных сравнительных анализов моделей, генерирующих синтетические данные, и судей LLM. Для устранения этого пробела мы представляем WILDCHAT-50M, самый крупный общедоступный набор данных чатов на сегодняшний день. Мы расширяем существующий набор данных WildChat, включая ответы не только от GPT, но и от более чем 50 различных моделей с открытыми весами, размер которых варьируется от 0,5 млрд до 104 млрд параметров. Мы проводим обширный сравнительный анализ и демонстрируем потенциал этого набора данных, создав RE-WILD, наш собственный общедоступный SFT-микс, который превосходит недавний SFT-микс Tulu-3 от Allen AI с лишь 40% от количества образцов. Наш набор данных, образцы и код доступны по адресу https://github.com/penfever/wildchat-50m.
English
Language model (LLM) post-training, from DPO to distillation, can refine behaviors and unlock new skills, but the open science supporting these post-training techniques is still in its infancy. One limiting factor has been the difficulty of conducting large-scale comparative analyses of synthetic data generating models and LLM judges. To close this gap, we introduce WILDCHAT-50M, the largest public chat dataset to date. We extend the existing WildChat dataset to include responses not only from GPT, but from over 50 different open-weight models, ranging in size from 0.5B to 104B parameters. We conduct an extensive comparative analysis and demonstrate the potential of this dataset by creating RE-WILD, our own public SFT mix, which outperforms the recent Tulu-3 SFT mixture from Allen AI with only 40% as many samples. Our dataset, samples and code are available at https://github.com/penfever/wildchat-50m.

Summary

AI-Generated Summary

PDF204January 31, 2025