Ciencia de Datos y Tecnología hacia la IAG Parte I: Gestión de Datos por Niveles
Data Science and Technology Towards AGI Part I: Tiered Data Management
February 9, 2026
Autores: Yudong Wang, Zixuan Fu, Hengyu Zhao, Chen Zhao, Chuyue Zhou, Xinle Lin, Hongya Lyu, Shuaikang Xue, Yi Yi, Yingjiao Wang, Zhi Zheng, Yuzhou Zhang, Jie Zhou, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI
Resumen
El desarrollo de la inteligencia artificial puede considerarse como una evolución de los paradigmas de aprendizaje basados en datos, donde los cambios sucesivos en la organización y utilización de los datos impulsan continuamente los avances en la capacidad de los modelos. La investigación actual en LLM está dominada por un paradigma que depende en gran medida del escalado unidireccional del volumen de datos, encontrándose cada vez más con cuellos de botella en la disponibilidad de datos, el coste de adquisición y la eficiencia del entrenamiento. En este trabajo, sostenemos que el desarrollo de la AGI está entrando en una nueva fase de coevolución datos-modelo, en la que los modelos guían activamente la gestión de datos mientras que los datos de alta calidad, a su vez, amplifican las capacidades del modelo. Para implementar esta visión, proponemos un marco de gestión de datos por niveles, diseñado para apoyar todo el ciclo de vida del entrenamiento de LLM en diversos objetivos de aprendizaje y restricciones de coste. Específicamente, introducimos un marco de gestión de datos de niveles L0 a L4, que abarca desde recursos brutos sin curar hasta conocimiento organizado y verificable. Es importante destacar que los LLM se utilizan plenamente en los procesos de gestión de datos, como la puntuación de calidad y la edición de contenidos, para refinar los datos en todos los niveles. Cada nivel se caracteriza por distintas propiedades de los datos, estrategias de gestión y roles en el entrenamiento, lo que permite asignar los datos estratégicamente a lo largo de las etapas de entrenamiento del LLM, incluyendo el pre-entrenamiento, el entrenamiento intermedio y la alineación. El marco equilibra la calidad de los datos, el coste de adquisición y el beneficio marginal del entrenamiento, proporcionando un enfoque sistemático para una gestión de datos escalable y sostenible. Validamos la eficacia del marco propuesto mediante estudios empíricos, en los que se construyen conjuntos de datos por niveles a partir de corpus en bruto y se utilizan en múltiples fases de entrenamiento. Los resultados experimentales demuestran que la utilización de datos consciente de los niveles mejora significativamente la eficiencia del entrenamiento y el rendimiento del modelo. Para facilitar futuras investigaciones, ponemos a disposición de la comunidad nuestros conjuntos de datos por niveles y nuestras herramientas de procesamiento.
English
The development of artificial intelligence can be viewed as an evolution of data-driven learning paradigms, with successive shifts in data organization and utilization continuously driving advances in model capability. Current LLM research is dominated by a paradigm that relies heavily on unidirectional scaling of data size, increasingly encountering bottlenecks in data availability, acquisition cost, and training efficiency. In this work, we argue that the development of AGI is entering a new phase of data-model co-evolution, in which models actively guide data management while high-quality data, in turn, amplifies model capabilities. To implement this vision, we propose a tiered data management framework, designed to support the full LLM training lifecycle across heterogeneous learning objectives and cost constraints. Specifically, we introduce an L0-L4 tiered data management framework, ranging from raw uncurated resources to organized and verifiable knowledge. Importantly, LLMs are fully used in data management processes, such as quality scoring and content editing, to refine data across tiers. Each tier is characterized by distinct data properties, management strategies, and training roles, enabling data to be strategically allocated across LLM training stages, including pre-training, mid-training, and alignment. The framework balances data quality, acquisition cost, and marginal training benefit, providing a systematic approach to scalable and sustainable data management. We validate the effectiveness of the proposed framework through empirical studies, in which tiered datasets are constructed from raw corpora and used across multiple training phases. Experimental results demonstrate that tier-aware data utilization significantly improves training efficiency and model performance. To facilitate further research, we release our tiered datasets and processing tools to the community.