ChatPaper.aiChatPaper

WILDCHAT-50M: Un Análisis Profundo del Papel de los Datos Sintéticos en el Post-Entrenamiento

WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training

January 30, 2025
Autores: Benjamin Feuer, Chinmay Hegde
cs.AI

Resumen

El post-entrenamiento del modelo de lenguaje (LLM), desde DPO hasta la destilación, puede refinar comportamientos y desbloquear nuevas habilidades, pero la ciencia abierta que respalda estas técnicas de post-entrenamiento aún está en sus inicios. Un factor limitante ha sido la dificultad de llevar a cabo análisis comparativos a gran escala de modelos generadores de datos sintéticos y jueces LLM. Para cerrar esta brecha, presentamos WILDCHAT-50M, el conjunto de datos de chat público más grande hasta la fecha. Ampliamos el conjunto de datos existente de WildChat para incluir respuestas no solo de GPT, sino de más de 50 modelos abiertos de peso, que van desde 0.5B hasta 104B parámetros. Realizamos un extenso análisis comparativo y demostramos el potencial de este conjunto de datos creando RE-WILD, nuestra propia mezcla pública SFT, que supera al reciente Tulu-3 SFT de Allen AI con solo el 40% de muestras. Nuestro conjunto de datos, muestras y código están disponibles en https://github.com/penfever/wildchat-50m.
English
Language model (LLM) post-training, from DPO to distillation, can refine behaviors and unlock new skills, but the open science supporting these post-training techniques is still in its infancy. One limiting factor has been the difficulty of conducting large-scale comparative analyses of synthetic data generating models and LLM judges. To close this gap, we introduce WILDCHAT-50M, the largest public chat dataset to date. We extend the existing WildChat dataset to include responses not only from GPT, but from over 50 different open-weight models, ranging in size from 0.5B to 104B parameters. We conduct an extensive comparative analysis and demonstrate the potential of this dataset by creating RE-WILD, our own public SFT mix, which outperforms the recent Tulu-3 SFT mixture from Allen AI with only 40% as many samples. Our dataset, samples and code are available at https://github.com/penfever/wildchat-50m.

Summary

AI-Generated Summary

PDF204January 31, 2025