Comment synthétiser des données textuelles sans effondrement du modèle ?
How to Synthesize Text Data without Model Collapse?
December 19, 2024
Auteurs: Xuekai Zhu, Daixuan Cheng, Hengli Li, Kaiyan Zhang, Ermo Hua, Xingtai Lv, Ning Ding, Zhouhan Lin, Zilong Zheng, Bowen Zhou
cs.AI
Résumé
L'effondrement du modèle dans les données synthétiques indique qu'un entraînement itératif sur des données auto-générées entraîne un déclin progressif des performances. Avec la prolifération des modèles d'IA, les données synthétiques remodeleront fondamentalement l'écosystème des données web. Les futurs modèles GPT-{n} seront inévitablement entraînés sur un mélange de données synthétiques et humaines. Dans cet article, nous nous concentrons sur deux questions : quel est l'impact des données synthétiques sur l'entraînement des modèles de langage, et comment synthétiser des données sans effondrement du modèle ? Nous pré-entraînons d'abord des modèles de langage sur différentes proportions de données synthétiques, révélant une corrélation négative entre la proportion de données synthétiques et les performances du modèle. Nous menons ensuite une analyse statistique sur les données synthétiques pour mettre en lumière le phénomène de décalage distributionnel et la sur-concentration des caractéristiques n-grammes. Inspirés par les résultats ci-dessus, nous proposons une édition de jetons sur les données produites par l'homme pour obtenir des données semi-synthétiques. À titre de preuve de concept, nous démontrons théoriquement que l'édition au niveau du jeton peut prévenir l'effondrement du modèle, car l'erreur de test est limitée par une borne supérieure finie. Nous menons des expériences approfondies sur le pré-entraînement à partir de zéro, le pré-entraînement continu et le fine-tuning supervisé. Les résultats valident notre preuve théorique selon laquelle l'édition au niveau du jeton améliore la qualité des données et renforce les performances du modèle.
English
Model collapse in synthetic data indicates that iterative training on
self-generated data leads to a gradual decline in performance. With the
proliferation of AI models, synthetic data will fundamentally reshape the web
data ecosystem. Future GPT-{n} models will inevitably be trained on a blend
of synthetic and human-produced data. In this paper, we focus on two questions:
what is the impact of synthetic data on language model training, and how to
synthesize data without model collapse? We first pre-train language models
across different proportions of synthetic data, revealing a negative
correlation between the proportion of synthetic data and model performance. We
further conduct statistical analysis on synthetic data to uncover
distributional shift phenomenon and over-concentration of n-gram features.
Inspired by the above findings, we propose token editing on human-produced data
to obtain semi-synthetic data. As a proof of concept, we theoretically
demonstrate that token-level editing can prevent model collapse, as the test
error is constrained by a finite upper bound. We conduct extensive experiments
on pre-training from scratch, continual pre-training, and supervised
fine-tuning. The results validate our theoretical proof that token-level
editing improves data quality and enhances model performance.Summary
AI-Generated Summary