ChatPaper.aiChatPaper

¿Cómo sintetizar datos de texto sin colapso del modelo?

How to Synthesize Text Data without Model Collapse?

December 19, 2024
Autores: Xuekai Zhu, Daixuan Cheng, Hengli Li, Kaiyan Zhang, Ermo Hua, Xingtai Lv, Ning Ding, Zhouhan Lin, Zilong Zheng, Bowen Zhou
cs.AI

Resumen

La aparición de colapso de modelo en datos sintéticos indica que el entrenamiento iterativo en datos autogenerados conduce a una disminución gradual en el rendimiento. Con la proliferación de modelos de IA, los datos sintéticos reformarán fundamentalmente el ecosistema de datos web. Los futuros modelos GPT-{n} serán inevitablemente entrenados con una combinación de datos sintéticos y humanos. En este artículo, nos enfocamos en dos preguntas: ¿cuál es el impacto de los datos sintéticos en el entrenamiento de modelos de lenguaje y cómo sintetizar datos sin colapso de modelo? Primero pre-entrenamos modelos de lenguaje en diferentes proporciones de datos sintéticos, revelando una correlación negativa entre la proporción de datos sintéticos y el rendimiento del modelo. Luego realizamos un análisis estadístico sobre datos sintéticos para descubrir el fenómeno de cambio de distribución y la sobre-concentración de características n-gram. Inspirados por los hallazgos anteriores, proponemos la edición de tokens en datos producidos por humanos para obtener datos semisintéticos. Como prueba de concepto, demostramos teóricamente que la edición a nivel de token puede prevenir el colapso del modelo, ya que el error de prueba está limitado por un límite superior finito. Realizamos experimentos extensos en pre-entrenamiento desde cero, pre-entrenamiento continuo y ajuste fino supervisado. Los resultados validan nuestra prueba teórica de que la edición a nivel de token mejora la calidad de los datos y aumenta el rendimiento del modelo.
English
Model collapse in synthetic data indicates that iterative training on self-generated data leads to a gradual decline in performance. With the proliferation of AI models, synthetic data will fundamentally reshape the web data ecosystem. Future GPT-{n} models will inevitably be trained on a blend of synthetic and human-produced data. In this paper, we focus on two questions: what is the impact of synthetic data on language model training, and how to synthesize data without model collapse? We first pre-train language models across different proportions of synthetic data, revealing a negative correlation between the proportion of synthetic data and model performance. We further conduct statistical analysis on synthetic data to uncover distributional shift phenomenon and over-concentration of n-gram features. Inspired by the above findings, we propose token editing on human-produced data to obtain semi-synthetic data. As a proof of concept, we theoretically demonstrate that token-level editing can prevent model collapse, as the test error is constrained by a finite upper bound. We conduct extensive experiments on pre-training from scratch, continual pre-training, and supervised fine-tuning. The results validate our theoretical proof that token-level editing improves data quality and enhances model performance.

Summary

AI-Generated Summary

PDF534December 20, 2024