Наука о данных и технологии на пути к ИИЧ. Часть I: Многоуровневое управление данными
Data Science and Technology Towards AGI Part I: Tiered Data Management
February 9, 2026
Авторы: Yudong Wang, Zixuan Fu, Hengyu Zhao, Chen Zhao, Chuyue Zhou, Xinle Lin, Hongya Lyu, Shuaikang Xue, Yi Yi, Yingjiao Wang, Zhi Zheng, Yuzhou Zhang, Jie Zhou, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun
cs.AI
Аннотация
Развитие искусственного интеллекта можно рассматривать как эволюцию парадигм обучения, управляемых данными, при которой последовательные изменения в организации и использовании данных постоянно стимулируют прогресс возможностей моделей. Современные исследования больших языковых моделей (LLM) доминируют парадигмой, в значительной степени опирающейся на однонаправленное масштабирование объема данных, что все чаще сталкивается с ограничениями в доступности данных, стоимости их получения и эффективности обучения. В данной работе мы утверждаем, что развитие искусственного общего интеллекта (AGI) вступает в новую фазу совместной эволюции данных и моделей, в которой модели активно направляют управление данными, а высококачественные данные, в свою очередь, усиливают возможности моделей. Для реализации этого подхода мы предлагаем многоуровневую систему управления данными, предназначенную для поддержки полного жизненного цикла обучения LLM с учетом разнородных учебных задач и бюджетных ограничений. В частности, мы вводим многоуровневую систему управления данными L0-L4, охватывающую диапазон от необработанных некурируемых ресурсов до систематизированных и верифицируемых знаний. Важно, что LLM активно используются в процессах управления данными, таких как оценка качества и редактирование контента, для улучшения данных на всех уровнях. Каждый уровень характеризуется особыми свойствами данных, стратегиями управления и учебными ролями, что позволяет стратегически распределять данные по этапам обучения LLM, включая предварительное обучение, промежуточное обучение и согласование. Данная система балансирует качество данных, стоимость их получения и предельную пользу для обучения, предлагая системный подход к масштабируемому и устойчивому управлению данными. Мы подтверждаем эффективность предложенной системы с помощью эмпирических исследований, в которых многоуровневые наборы данных создавались из исходных корпусов и использовались на различных фазах обучения. Результаты экспериментов демонстрируют, что осознанное использование данных с учетом их уровня значимо повышает эффективность обучения и производительность модели. Для содействия дальнейшим исследованиям мы публикуем наши многоуровневые наборы данных и инструменты обработки для научного сообщества.
English
The development of artificial intelligence can be viewed as an evolution of data-driven learning paradigms, with successive shifts in data organization and utilization continuously driving advances in model capability. Current LLM research is dominated by a paradigm that relies heavily on unidirectional scaling of data size, increasingly encountering bottlenecks in data availability, acquisition cost, and training efficiency. In this work, we argue that the development of AGI is entering a new phase of data-model co-evolution, in which models actively guide data management while high-quality data, in turn, amplifies model capabilities. To implement this vision, we propose a tiered data management framework, designed to support the full LLM training lifecycle across heterogeneous learning objectives and cost constraints. Specifically, we introduce an L0-L4 tiered data management framework, ranging from raw uncurated resources to organized and verifiable knowledge. Importantly, LLMs are fully used in data management processes, such as quality scoring and content editing, to refine data across tiers. Each tier is characterized by distinct data properties, management strategies, and training roles, enabling data to be strategically allocated across LLM training stages, including pre-training, mid-training, and alignment. The framework balances data quality, acquisition cost, and marginal training benefit, providing a systematic approach to scalable and sustainable data management. We validate the effectiveness of the proposed framework through empirical studies, in which tiered datasets are constructed from raw corpora and used across multiple training phases. Experimental results demonstrate that tier-aware data utilization significantly improves training efficiency and model performance. To facilitate further research, we release our tiered datasets and processing tools to the community.