Data Science en Technologie op Weg naar AGI Deel I: Gelaagd Data Management
Data Science and Technology Towards AGI Part I: Tiered Data Management
February 9, 2026
Auteurs: Yudong Wang, Zixuan Fu, Hengyu Zhao, Chen Zhao, Chuyue Zhou, Xinle Lin, Hongya Lyu, Shuaikang Xue, Yi Yi, Yingjiao Wang, Zhi Zheng, Yuzhou Zhang, Jie Zhou, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI
Samenvatting
De ontwikkeling van kunstmatige intelligentie kan worden gezien als een evolutie van data-gedreven leerparadigma's, waarbij opeenvolgende verschuivingen in data-organisatie en -gebruik de vooruitgang in modelcapaciteit continu aansturen. Het huidige LLM-onderzoek wordt gedomineerd door een paradigma dat sterk leunt op unidirectionele schaalvergroting van dataschaal, wat steeds vaker botst met knelpunten in data-beschikbaarheid, verwervingskosten en trainingsrendement. In dit werk betogen wij dat de ontwikkeling van AGI een nieuwe fase van data-model co-evolutie ingaat, waarin modellen actief databeheer sturen terwijl hoogwaardige data op hun beurt modelcapaciteiten versterkt. Om deze visie te implementeren, stellen we een gelaagd data management framework voor, ontworpen om de volledige LLM-trainingslevenscyclus te ondersteunen bij heterogene leerdoelen en kostenbeperkingen. Concreet introduceren we een L0-L4 gelaagd data management framework, variërend van ruwe onbewerkte bronnen tot georganiseerde en verifieerbare kennis. Cruciaal is dat LLM's volledig worden ingezet in data management processen, zoals kwaliteitsscoring en contentbewerking, om data tussen lagen te verfijnen. Elke laag kenmerkt zich door distinctieve data-eigenschappen, beheerstrategieën en trainingsrollen, waardoor data strategisch kan worden toegewezen aan LLM-trainingsfasen, inclusief pre-training, mid-training en alignment. Het framework balanceert data-kwaliteit, verwervingskosten en marginaal trainingsrendement, en biedt een systematische aanpak voor schaalbaar en duurzaam data management. We valideren de effectiviteit van het voorgestelde framework via empirische studies, waarbij gelaagde datasets uit ruwe corpora worden opgebouwd en ingezet in meerdere trainingsfasen. Experimentele resultaten tonen aan dat laagbewust data-gebruik trainingsrendement en modelprestaties significant verbetert. Om vervolgonderzoek te faciliteren, stellen we onze gelaagde datasets en verwerkingsinstrumenten beschikbaar aan de onderzoeksgemeenschap.
English
The development of artificial intelligence can be viewed as an evolution of data-driven learning paradigms, with successive shifts in data organization and utilization continuously driving advances in model capability. Current LLM research is dominated by a paradigm that relies heavily on unidirectional scaling of data size, increasingly encountering bottlenecks in data availability, acquisition cost, and training efficiency. In this work, we argue that the development of AGI is entering a new phase of data-model co-evolution, in which models actively guide data management while high-quality data, in turn, amplifies model capabilities. To implement this vision, we propose a tiered data management framework, designed to support the full LLM training lifecycle across heterogeneous learning objectives and cost constraints. Specifically, we introduce an L0-L4 tiered data management framework, ranging from raw uncurated resources to organized and verifiable knowledge. Importantly, LLMs are fully used in data management processes, such as quality scoring and content editing, to refine data across tiers. Each tier is characterized by distinct data properties, management strategies, and training roles, enabling data to be strategically allocated across LLM training stages, including pre-training, mid-training, and alignment. The framework balances data quality, acquisition cost, and marginal training benefit, providing a systematic approach to scalable and sustainable data management. We validate the effectiveness of the proposed framework through empirical studies, in which tiered datasets are constructed from raw corpora and used across multiple training phases. Experimental results demonstrate that tier-aware data utilization significantly improves training efficiency and model performance. To facilitate further research, we release our tiered datasets and processing tools to the community.