ChatPaper.aiChatPaper

データサイエンスとテクノロジーによるAGIへの道 第一部:階層型データマネジメント

Data Science and Technology Towards AGI Part I: Tiered Data Management

February 9, 2026
著者: Yudong Wang, Zixuan Fu, Hengyu Zhao, Chen Zhao, Chuyue Zhou, Xinle Lin, Hongya Lyu, Shuaikang Xue, Yi Yi, Yingjiao Wang, Zhi Zheng, Yuzhou Zhang, Jie Zhou, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI

要旨

人工知能の発展は、データ駆動学習パラダイムの進化として捉えることができ、データの組織化と利用の連続的な変化が、モデル能力の進歩を絶えず推進してきた。現在の大規模言語モデル(LLM)研究は、データサイズの一方向的スケーリングに大きく依存するパラダイムが支配的であり、データの入手可能性、取得コスト、学習効率においてボトルネックに直面しつつある。本研究では、人工汎用知能(AGI)の発展が、モデルが積極的にデータ管理を導きながら、高品質なデータがモデル能力を増幅する、データとモデルの共進化の新たな段階に入りつつあると論じる。このビジョンを実現するため、異種混合の学習目標とコスト制約にわたるLLM学習ライフサイクル全体を支援するように設計された、階層化データ管理フレームワークを提案する。具体的には、未整理の生リソースから体系的で検証可能な知識までを範囲とするL0-L5の階層化データ管理フレームワークを導入する。重要な点として、品質スコアリングや内容編集などのデータ管理プロセスにおいてLLMを完全に活用し、各階層のデータを精緻化する。各階層は、異なるデータ特性、管理戦略、学習役割によって特徴づけられ、データが事前学習、中間学習、アライメントを含むLLM学習段階全体に戦略的に配分されることを可能にする。本フレームワークは、データ品質、取得コスト、限界的学習効果のバランスを取り、スケーラブルかつ持続可能なデータ管理への体系的なアプローチを提供する。提案フレームワークの有効性を実証研究により検証し、生コーパスから構築された階層化データセットが複数の学習段階で使用される。実験結果は、階層を意識したデータ利用が学習効率とモデル性能を大幅に改善することを示す。さらなる研究の促進のため、階層化データセットと処理ツールをコミュニティに公開する。
English
The development of artificial intelligence can be viewed as an evolution of data-driven learning paradigms, with successive shifts in data organization and utilization continuously driving advances in model capability. Current LLM research is dominated by a paradigm that relies heavily on unidirectional scaling of data size, increasingly encountering bottlenecks in data availability, acquisition cost, and training efficiency. In this work, we argue that the development of AGI is entering a new phase of data-model co-evolution, in which models actively guide data management while high-quality data, in turn, amplifies model capabilities. To implement this vision, we propose a tiered data management framework, designed to support the full LLM training lifecycle across heterogeneous learning objectives and cost constraints. Specifically, we introduce an L0-L4 tiered data management framework, ranging from raw uncurated resources to organized and verifiable knowledge. Importantly, LLMs are fully used in data management processes, such as quality scoring and content editing, to refine data across tiers. Each tier is characterized by distinct data properties, management strategies, and training roles, enabling data to be strategically allocated across LLM training stages, including pre-training, mid-training, and alignment. The framework balances data quality, acquisition cost, and marginal training benefit, providing a systematic approach to scalable and sustainable data management. We validate the effectiveness of the proposed framework through empirical studies, in which tiered datasets are constructed from raw corpora and used across multiple training phases. Experimental results demonstrate that tier-aware data utilization significantly improves training efficiency and model performance. To facilitate further research, we release our tiered datasets and processing tools to the community.
PDF52February 11, 2026