데이터 과학과 기술이 AGI를 향해 나아가는 길 1부: 계층적 데이터 관리
Data Science and Technology Towards AGI Part I: Tiered Data Management
February 9, 2026
저자: Yudong Wang, Zixuan Fu, Hengyu Zhao, Chen Zhao, Chuyue Zhou, Xinle Lin, Hongya Lyu, Shuaikang Xue, Yi Yi, Yingjiao Wang, Zhi Zheng, Yuzhou Zhang, Jie Zhou, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI
초록
인공지능의 발전은 데이터 중심 학습 패러다임의 진화로 볼 수 있으며, 데이터 조직화와 활용 방식의 지속적인 변화가 모델 능력 향상을 끊임없이 주도해왔다. 현재 LLM 연구는 데이터 규모의 단방향 확장에 크게 의존하는 패러다임이 지배적이며, 이는 데이터 가용성, 확보 비용, 훈련 효율성 측면에서 점점 더 많은 병목 현상에 직면하고 있다. 본 연구에서는 AGI 발전이 데이터-모델 공진화의 새로운 단계에 진입하고 있다고 주장한다. 이 단계에서는 모델이 데이터 관리에 적극적으로 기여하는 동시에 고품질 데이터가 모델 능력을 증폭시키는 상호 진화가 이루어진다. 이러한 비전을 구현하기 위해 우리는 이질적인 학습 목표와 비용 제약을 포괄하는 전체 LLM 훈련 생애주기를 지원하도록 설계된 계층적 데이터 관리 프레임워크를 제안한다. 구체적으로, 원시 비정제 자원부터 체계화되고 검증 가능한 지식에 이르기까지 L0-L4 계층적 데이터 관리 프레임워크를 소개한다. 중요한 점은 LLM이 품질 점수 매기기 및 콘텐츠 편집과 같은 데이터 관리 과정 전반에 완전히 활용되어 각 계층의 데이터를 정제한다는 것이다. 각 계층은 고유한 데이터 특성, 관리 전략, 훈련 역할을 가지며, 이를 통해 사전 훈련, 중간 훈련, 정렬을 포함한 LLM 훈련 단계 전반에 데이터를 전략적으로 배분할 수 있다. 본 프레임워크는 데이터 품질, 확보 비용, 한계 훈련 이익을 균형 있게 조정하여 확장 가능하고 지속 가능한 데이터 관리에 대한 체계적인 접근법을 제공한다. 우리는 원시 코퍼스로부터 계층별 데이터셋을 구축하고 여러 훈련 단계에 활용한 실증 연구를 통해 제안된 프레임워크의 효과를 검증한다. 실험 결과, 계층 인식 데이터 활용이 훈련 효율성과 모델 성능을 크게 향상시킴을 확인했다. 향후 연구를 촉진하기 위해 계층별 데이터셋과 처리 도구를 커뮤니티에 공개한다.
English
The development of artificial intelligence can be viewed as an evolution of data-driven learning paradigms, with successive shifts in data organization and utilization continuously driving advances in model capability. Current LLM research is dominated by a paradigm that relies heavily on unidirectional scaling of data size, increasingly encountering bottlenecks in data availability, acquisition cost, and training efficiency. In this work, we argue that the development of AGI is entering a new phase of data-model co-evolution, in which models actively guide data management while high-quality data, in turn, amplifies model capabilities. To implement this vision, we propose a tiered data management framework, designed to support the full LLM training lifecycle across heterogeneous learning objectives and cost constraints. Specifically, we introduce an L0-L4 tiered data management framework, ranging from raw uncurated resources to organized and verifiable knowledge. Importantly, LLMs are fully used in data management processes, such as quality scoring and content editing, to refine data across tiers. Each tier is characterized by distinct data properties, management strategies, and training roles, enabling data to be strategically allocated across LLM training stages, including pre-training, mid-training, and alignment. The framework balances data quality, acquisition cost, and marginal training benefit, providing a systematic approach to scalable and sustainable data management. We validate the effectiveness of the proposed framework through empirical studies, in which tiered datasets are constructed from raw corpora and used across multiple training phases. Experimental results demonstrate that tier-aware data utilization significantly improves training efficiency and model performance. To facilitate further research, we release our tiered datasets and processing tools to the community.