ChatPaper.aiChatPaper

Data Science und Technologie auf dem Weg zur AGI Teil I: Gestuftes Datenmanagement

Data Science and Technology Towards AGI Part I: Tiered Data Management

February 9, 2026
papers.authors: Yudong Wang, Zixuan Fu, Hengyu Zhao, Chen Zhao, Chuyue Zhou, Xinle Lin, Hongya Lyu, Shuaikang Xue, Yi Yi, Yingjiao Wang, Zhi Zheng, Yuzhou Zhang, Jie Zhou, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI

papers.abstract

Die Entwicklung künstlicher Intelligenz kann als Evolution datengetriebener Lernparadigmen betrachtet werden, wobei aufeinanderfolgende Verschiebungen in der Datenorganisation und -nutzung fortlaufend Fortschritte in den Modellfähigkeiten vorantreiben. Die aktuelle LLM-Forschung wird von einem Paradigma dominiert, das stark auf unidirektionaler Skalierung der Datengröße basiert und zunehmend auf Grenzen bei der Datenverfügbarkeit, den Erfassungskosten und der Trainingseffizienz stößt. In dieser Arbeit vertreten wir die Auffassung, dass die Entwicklung von AGI in eine neue Phase der Daten-Modell-Koevolution eintritt, in der Modelle aktiv das Datenmanagement steuern, während hochwertige Daten wiederum die Modellfähigkeiten verstärken. Um diese Vision umzusetzen, schlagen wir einen abgestuften Datenmanagement-Rahmen vor, der den gesamten LLM-Trainingslebenszyklus über heterogene Lernziele und Kostenbeschränkungen hinweg unterstützen soll. Konkret führen wir ein L0-L4-abgestuftes Datenmanagement-System ein, das von rohen, ungeprüften Ressourcen bis hin zu organisiertem und verifizierbarem Wissen reicht. Entscheidend ist, dass LLMs vollständig in Datenmanagementprozesse – wie Qualitätsbewertung und Inhaltsbearbeitung – integriert werden, um Daten über alle Stufen hinweg zu verfeinern. Jede Stufe ist durch spezifische Dateneigenschaften, Managementstrategien und Trainingsrollen charakterisiert, was eine strategische Allokation von Daten über verschiedene LLM-Trainingsphasen hinweg ermöglicht, einschließlich Vor-, Zwischen- und Alignment-Training. Der Rahmen balanciert Datenqualität, Erfassungskosten und marginalen Trainingsnutzen aus und bietet einen systematischen Ansatz für skalierbares und nachhaltiges Datenmanagement. Wir validieren die Wirksamkeit des vorgeschlagenen Rahmens durch empirische Studien, in denen abgestufte Datensätze aus Rohkorpora erstellt und über mehrere Trainingsphasen hinweg genutzt werden. Experimentelle Ergebnisse zeigen, dass die stufenbewusste Datennutzung die Trainingseffizienz und Modellleistung signifikant verbessert. Um weitere Forschung zu ermöglichen, veröffentlichen wir unsere abgestuften Datensätze und Verarbeitungswerkzeuge für die Community.
English
The development of artificial intelligence can be viewed as an evolution of data-driven learning paradigms, with successive shifts in data organization and utilization continuously driving advances in model capability. Current LLM research is dominated by a paradigm that relies heavily on unidirectional scaling of data size, increasingly encountering bottlenecks in data availability, acquisition cost, and training efficiency. In this work, we argue that the development of AGI is entering a new phase of data-model co-evolution, in which models actively guide data management while high-quality data, in turn, amplifies model capabilities. To implement this vision, we propose a tiered data management framework, designed to support the full LLM training lifecycle across heterogeneous learning objectives and cost constraints. Specifically, we introduce an L0-L4 tiered data management framework, ranging from raw uncurated resources to organized and verifiable knowledge. Importantly, LLMs are fully used in data management processes, such as quality scoring and content editing, to refine data across tiers. Each tier is characterized by distinct data properties, management strategies, and training roles, enabling data to be strategically allocated across LLM training stages, including pre-training, mid-training, and alignment. The framework balances data quality, acquisition cost, and marginal training benefit, providing a systematic approach to scalable and sustainable data management. We validate the effectiveness of the proposed framework through empirical studies, in which tiered datasets are constructed from raw corpora and used across multiple training phases. Experimental results demonstrate that tier-aware data utilization significantly improves training efficiency and model performance. To facilitate further research, we release our tiered datasets and processing tools to the community.
PDF52February 11, 2026