ChatPaper.aiChatPaper

WILDCHAT-50M: Een diepgaande verkenning van de rol van synthetische data in Post-Training

WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training

January 30, 2025
Auteurs: Benjamin Feuer, Chinmay Hegde
cs.AI

Samenvatting

Het post-trainen van taalmodellen (LLM), van DPO tot distillatie, kan gedrag verfijnen en nieuwe vaardigheden ontsluiten, maar de open wetenschap die deze post-trainings technieken ondersteunt, bevindt zich nog in de kinderschoenen. Een beperkende factor is de moeilijkheid van het uitvoeren van grootschalige vergelijkende analyses van modellen die synthetische data genereren en LLM-beoordelaars. Om deze kloof te dichten, introduceren we WILDCHAT-50M, de grootste openbare chatdataset tot nu toe. We breiden de bestaande WildChat dataset uit met reacties niet alleen van GPT, maar van meer dan 50 verschillende open-gewicht modellen, variërend in grootte van 0,5B tot 104B parameters. We voeren een uitgebreide vergelijkende analyse uit en tonen het potentieel van deze dataset door RE-WILD te creëren, onze eigen openbare SFT-mix, die beter presteert dan de recente Tulu-3 SFT-mix van Allen AI met slechts 40% van het aantal voorbeelden. Onze dataset, voorbeelden en code zijn beschikbaar op https://github.com/penfever/wildchat-50m.
English
Language model (LLM) post-training, from DPO to distillation, can refine behaviors and unlock new skills, but the open science supporting these post-training techniques is still in its infancy. One limiting factor has been the difficulty of conducting large-scale comparative analyses of synthetic data generating models and LLM judges. To close this gap, we introduce WILDCHAT-50M, the largest public chat dataset to date. We extend the existing WildChat dataset to include responses not only from GPT, but from over 50 different open-weight models, ranging in size from 0.5B to 104B parameters. We conduct an extensive comparative analysis and demonstrate the potential of this dataset by creating RE-WILD, our own public SFT mix, which outperforms the recent Tulu-3 SFT mixture from Allen AI with only 40% as many samples. Our dataset, samples and code are available at https://github.com/penfever/wildchat-50m.

Summary

AI-Generated Summary

PDF204January 31, 2025