Hoe tekstgegevens te synthetiseren zonder modelinstorting?
How to Synthesize Text Data without Model Collapse?
December 19, 2024
Auteurs: Xuekai Zhu, Daixuan Cheng, Hengli Li, Kaiyan Zhang, Ermo Hua, Xingtai Lv, Ning Ding, Zhouhan Lin, Zilong Zheng, Bowen Zhou
cs.AI
Samenvatting
Modelinstorting in synthetische data geeft aan dat iteratieve training op zelf gegenereerde data leidt tot een geleidelijke afname in prestaties. Met de verspreiding van AI-modellen zal synthetische data fundamenteel de webdata-ecosfeer hervormen. Toekomstige GPT-{n} modellen zullen onvermijdelijk worden getraind op een mix van synthetische en door mensen geproduceerde data. In dit artikel richten we ons op twee vragen: wat is de impact van synthetische data op de training van taalmodellen, en hoe kunnen we data synthetiseren zonder modelinstorting? We pre-trainen eerst taalmodellen over verschillende verhoudingen synthetische data, waarbij een negatieve correlatie tussen de verhouding synthetische data en modelprestaties wordt onthuld. Vervolgens voeren we statistische analyses uit op synthetische data om het fenomeen van distributieverschuiving en overconcentratie van n-gram kenmerken bloot te leggen. Geïnspireerd door bovenstaande bevindingen stellen we tokenbewerking voor op door mensen geproduceerde data om semi-synthetische data te verkrijgen. Als bewijs van concept demonstreren we theoretisch dat bewerking op tokenniveau modelinstorting kan voorkomen, aangezien de testfout begrensd wordt door een eindige bovengrens. We voeren uitgebreide experimenten uit op pre-training vanaf nul, voortdurende pre-training en begeleid fijnafstemmen. De resultaten bevestigen ons theoretisch bewijs dat bewerking op tokenniveau de datakwaliteit verbetert en de modelprestaties versterkt.
English
Model collapse in synthetic data indicates that iterative training on
self-generated data leads to a gradual decline in performance. With the
proliferation of AI models, synthetic data will fundamentally reshape the web
data ecosystem. Future GPT-{n} models will inevitably be trained on a blend
of synthetic and human-produced data. In this paper, we focus on two questions:
what is the impact of synthetic data on language model training, and how to
synthesize data without model collapse? We first pre-train language models
across different proportions of synthetic data, revealing a negative
correlation between the proportion of synthetic data and model performance. We
further conduct statistical analysis on synthetic data to uncover
distributional shift phenomenon and over-concentration of n-gram features.
Inspired by the above findings, we propose token editing on human-produced data
to obtain semi-synthetic data. As a proof of concept, we theoretically
demonstrate that token-level editing can prevent model collapse, as the test
error is constrained by a finite upper bound. We conduct extensive experiments
on pre-training from scratch, continual pre-training, and supervised
fine-tuning. The results validate our theoretical proof that token-level
editing improves data quality and enhances model performance.