ChatPaper.aiChatPaper

Wie kann Textdaten synthetisiert werden, ohne dass ein Modellzusammenbruch auftritt?

How to Synthesize Text Data without Model Collapse?

December 19, 2024
Autoren: Xuekai Zhu, Daixuan Cheng, Hengli Li, Kaiyan Zhang, Ermo Hua, Xingtai Lv, Ning Ding, Zhouhan Lin, Zilong Zheng, Bowen Zhou
cs.AI

Zusammenfassung

Das Auftreten von Modellkollaps in synthetischen Daten zeigt, dass das iterative Training mit selbstgenerierten Daten zu einem allmählichen Leistungsabfall führt. Mit der Verbreitung von KI-Modellen wird synthetische Daten das Webdaten-Ökosystem grundlegend umgestalten. Zukünftige GPT-{n}-Modelle werden zwangsläufig mit einer Mischung aus synthetischen und menschlich produzierten Daten trainiert werden. In diesem Paper konzentrieren wir uns auf zwei Fragen: Welchen Einfluss haben synthetische Daten auf das Training von Sprachmodellen und wie können Daten synthetisiert werden, ohne dass es zu einem Modellkollaps kommt? Wir führen zunächst das Pre-Training von Sprachmodellen mit verschiedenen Anteilen synthetischer Daten durch, wodurch eine negative Korrelation zwischen dem Anteil synthetischer Daten und der Modellleistung aufgedeckt wird. Des Weiteren führen wir eine statistische Analyse der synthetischen Daten durch, um Phänomene wie Verteilungsverschiebung und Überkonzentration von n-Gramm-Merkmalen aufzudecken. Inspiriert von den oben genannten Erkenntnissen schlagen wir vor, Token-Bearbeitungen an menschlich produzierten Daten durchzuführen, um halbsynthetische Daten zu erhalten. Als Machbarkeitsnachweis zeigen wir theoretisch, dass Token-Ebene-Bearbeitungen einen Modellkollaps verhindern können, da der Testfehler durch eine endliche obere Grenze begrenzt ist. Wir führen umfangreiche Experimente zum Pre-Training von Grund auf, kontinuierlichem Pre-Training und überwachtem Feintuning durch. Die Ergebnisse bestätigen unseren theoretischen Beweis, dass Token-Ebene-Bearbeitungen die Datenqualität verbessern und die Modellleistung steigern.
English
Model collapse in synthetic data indicates that iterative training on self-generated data leads to a gradual decline in performance. With the proliferation of AI models, synthetic data will fundamentally reshape the web data ecosystem. Future GPT-{n} models will inevitably be trained on a blend of synthetic and human-produced data. In this paper, we focus on two questions: what is the impact of synthetic data on language model training, and how to synthesize data without model collapse? We first pre-train language models across different proportions of synthetic data, revealing a negative correlation between the proportion of synthetic data and model performance. We further conduct statistical analysis on synthetic data to uncover distributional shift phenomenon and over-concentration of n-gram features. Inspired by the above findings, we propose token editing on human-produced data to obtain semi-synthetic data. As a proof of concept, we theoretically demonstrate that token-level editing can prevent model collapse, as the test error is constrained by a finite upper bound. We conduct extensive experiments on pre-training from scratch, continual pre-training, and supervised fine-tuning. The results validate our theoretical proof that token-level editing improves data quality and enhances model performance.

Summary

AI-Generated Summary

PDF534December 20, 2024