ChatPaper.aiChatPaper

Sciences des données et technologies pour l'AGI - Partie I : Gestion hiérarchisée des données

Data Science and Technology Towards AGI Part I: Tiered Data Management

February 9, 2026
papers.authors: Yudong Wang, Zixuan Fu, Hengyu Zhao, Chen Zhao, Chuyue Zhou, Xinle Lin, Hongya Lyu, Shuaikang Xue, Yi Yi, Yingjiao Wang, Zhi Zheng, Yuzhou Zhang, Jie Zhou, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI

papers.abstract

Le développement de l'intelligence artificielle peut être considéré comme une évolution des paradigmes d'apprentissage fondés sur les données, où des changements successifs dans l'organisation et l'utilisation des données ont continuellement stimulé les progrès des capacités des modèles. La recherche actuelle sur les grands modèles de langage (LLM) est dominée par un paradigme qui repose largement sur une augmentation unidirectionnelle de la taille des données, rencontrant de plus en plus des goulots d'étranglement liés à la disponibilité des données, au coût d'acquisition et à l'efficacité de l'entraînement. Dans ce travail, nous soutenons que le développement de l'AGI entre dans une nouvelle phase de coévolution données-modèles, dans laquelle les modèles guident activement la gestion des données tandis que des données de haute qualité, en retour, amplifient les capacités des modèles. Pour mettre en œuvre cette vision, nous proposons un cadre de gestion hiérarchisée des données, conçu pour soutenir l'ensemble du cycle de vie de l'entraînement des LLM, couvrant des objectifs d'apprentissage hétérogènes et des contraintes de coût variables. Plus précisément, nous introduisons un cadre de gestion hiérarchisée des données de niveaux L0 à L4, allant des ressources brutes non organisées aux connaissances organisées et vérifiables. Il est important de noter que les LLM sont pleinement utilisés dans les processus de gestion des données, tels que l'évaluation de la qualité et l'édition du contenu, pour raffiner les données à travers les différents niveaux. Chaque niveau se caractérise par des propriétés de données, des stratégies de gestion et des rôles dans l'entraînement distincts, permettant une allocation stratégique des données à travers les différentes phases d'entraînement des LLM, incluant le pré-entraînement, l'entraînement intermédiaire et l'alignement. Le cadre équilibre la qualité des données, le coût d'acquisition et le bénéfice marginal de l'entraînement, offrant une approche systématique pour une gestion des données évolutive et durable. Nous validons l'efficacité du cadre proposé par des études empiriques, dans lesquelles des ensembles de données hiérarchisés sont construits à partir de corpus bruts et utilisés à travers de multiples phases d'entraînement. Les résultats expérimentaux démontrent qu'une utilisation des données tenant compte de leur niveau hiérarchique améliore significativement l'efficacité de l'entraînement et les performances du modèle. Pour faciliter les recherches futures, nous mettons à disposition de la communauté nos ensembles de données hiérarchisés et nos outils de traitement.
English
The development of artificial intelligence can be viewed as an evolution of data-driven learning paradigms, with successive shifts in data organization and utilization continuously driving advances in model capability. Current LLM research is dominated by a paradigm that relies heavily on unidirectional scaling of data size, increasingly encountering bottlenecks in data availability, acquisition cost, and training efficiency. In this work, we argue that the development of AGI is entering a new phase of data-model co-evolution, in which models actively guide data management while high-quality data, in turn, amplifies model capabilities. To implement this vision, we propose a tiered data management framework, designed to support the full LLM training lifecycle across heterogeneous learning objectives and cost constraints. Specifically, we introduce an L0-L4 tiered data management framework, ranging from raw uncurated resources to organized and verifiable knowledge. Importantly, LLMs are fully used in data management processes, such as quality scoring and content editing, to refine data across tiers. Each tier is characterized by distinct data properties, management strategies, and training roles, enabling data to be strategically allocated across LLM training stages, including pre-training, mid-training, and alignment. The framework balances data quality, acquisition cost, and marginal training benefit, providing a systematic approach to scalable and sustainable data management. We validate the effectiveness of the proposed framework through empirical studies, in which tiered datasets are constructed from raw corpora and used across multiple training phases. Experimental results demonstrate that tier-aware data utilization significantly improves training efficiency and model performance. To facilitate further research, we release our tiered datasets and processing tools to the community.
PDF52February 11, 2026