Wie kann Textdaten synthetisiert werden, ohne dass ein Modellzusammenbruch auftritt?
How to Synthesize Text Data without Model Collapse?
December 19, 2024
Autoren: Xuekai Zhu, Daixuan Cheng, Hengli Li, Kaiyan Zhang, Ermo Hua, Xingtai Lv, Ning Ding, Zhouhan Lin, Zilong Zheng, Bowen Zhou
cs.AI
Zusammenfassung
Das Auftreten von Modellkollaps in synthetischen Daten zeigt, dass das iterative Training mit selbstgenerierten Daten zu einem allmählichen Leistungsabfall führt. Mit der Verbreitung von KI-Modellen wird synthetische Daten das Webdaten-Ökosystem grundlegend umgestalten. Zukünftige GPT-{n}-Modelle werden zwangsläufig mit einer Mischung aus synthetischen und menschlich produzierten Daten trainiert werden. In diesem Paper konzentrieren wir uns auf zwei Fragen: Welchen Einfluss haben synthetische Daten auf das Training von Sprachmodellen und wie können Daten synthetisiert werden, ohne dass es zu einem Modellkollaps kommt? Wir führen zunächst das Pre-Training von Sprachmodellen mit verschiedenen Anteilen synthetischer Daten durch, wodurch eine negative Korrelation zwischen dem Anteil synthetischer Daten und der Modellleistung aufgedeckt wird. Des Weiteren führen wir eine statistische Analyse der synthetischen Daten durch, um Phänomene wie Verteilungsverschiebung und Überkonzentration von n-Gramm-Merkmalen aufzudecken. Inspiriert von den oben genannten Erkenntnissen schlagen wir vor, Token-Bearbeitungen an menschlich produzierten Daten durchzuführen, um halbsynthetische Daten zu erhalten. Als Machbarkeitsnachweis zeigen wir theoretisch, dass Token-Ebene-Bearbeitungen einen Modellkollaps verhindern können, da der Testfehler durch eine endliche obere Grenze begrenzt ist. Wir führen umfangreiche Experimente zum Pre-Training von Grund auf, kontinuierlichem Pre-Training und überwachtem Feintuning durch. Die Ergebnisse bestätigen unseren theoretischen Beweis, dass Token-Ebene-Bearbeitungen die Datenqualität verbessern und die Modellleistung steigern.
English
Model collapse in synthetic data indicates that iterative training on
self-generated data leads to a gradual decline in performance. With the
proliferation of AI models, synthetic data will fundamentally reshape the web
data ecosystem. Future GPT-{n} models will inevitably be trained on a blend
of synthetic and human-produced data. In this paper, we focus on two questions:
what is the impact of synthetic data on language model training, and how to
synthesize data without model collapse? We first pre-train language models
across different proportions of synthetic data, revealing a negative
correlation between the proportion of synthetic data and model performance. We
further conduct statistical analysis on synthetic data to uncover
distributional shift phenomenon and over-concentration of n-gram features.
Inspired by the above findings, we propose token editing on human-produced data
to obtain semi-synthetic data. As a proof of concept, we theoretically
demonstrate that token-level editing can prevent model collapse, as the test
error is constrained by a finite upper bound. We conduct extensive experiments
on pre-training from scratch, continual pre-training, and supervised
fine-tuning. The results validate our theoretical proof that token-level
editing improves data quality and enhances model performance.Summary
AI-Generated Summary