WILDCHAT-50M: Un Análisis Profundo del Papel de los Datos Sintéticos en el Post-Entrenamiento
WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training
January 30, 2025
Autores: Benjamin Feuer, Chinmay Hegde
cs.AI
Resumen
El post-entrenamiento del modelo de lenguaje (LLM), desde DPO hasta la destilación, puede refinar comportamientos y desbloquear nuevas habilidades, pero la ciencia abierta que respalda estas técnicas de post-entrenamiento aún está en sus inicios. Un factor limitante ha sido la dificultad de llevar a cabo análisis comparativos a gran escala de modelos generadores de datos sintéticos y jueces LLM. Para cerrar esta brecha, presentamos WILDCHAT-50M, el conjunto de datos de chat público más grande hasta la fecha. Ampliamos el conjunto de datos existente de WildChat para incluir respuestas no solo de GPT, sino de más de 50 modelos abiertos de peso, que van desde 0.5B hasta 104B parámetros. Realizamos un extenso análisis comparativo y demostramos el potencial de este conjunto de datos creando RE-WILD, nuestra propia mezcla pública SFT, que supera al reciente Tulu-3 SFT de Allen AI con solo el 40% de muestras. Nuestro conjunto de datos, muestras y código están disponibles en https://github.com/penfever/wildchat-50m.
English
Language model (LLM) post-training, from DPO to distillation, can refine
behaviors and unlock new skills, but the open science supporting these
post-training techniques is still in its infancy. One limiting factor has been
the difficulty of conducting large-scale comparative analyses of synthetic data
generating models and LLM judges. To close this gap, we introduce WILDCHAT-50M,
the largest public chat dataset to date. We extend the existing WildChat
dataset to include responses not only from GPT, but from over 50 different
open-weight models, ranging in size from 0.5B to 104B parameters. We conduct an
extensive comparative analysis and demonstrate the potential of this dataset by
creating RE-WILD, our own public SFT mix, which outperforms the recent Tulu-3
SFT mixture from Allen AI with only 40% as many samples. Our dataset, samples
and code are available at https://github.com/penfever/wildchat-50m.Summary
AI-Generated Summary