Ciência de Dados e Tecnologia Rumo à AGI Parte I: Gestão de Dados em Camadas

Resumo

O desenvolvimento da inteligência artificial pode ser visto como uma evolução dos paradigmas de aprendizagem orientados por dados, com mudanças sucessivas na organização e utilização de dados a impulsionar continuamente os avanços na capacidade dos modelos. A investigação atual em LLM é dominada por um paradigma que depende fortemente da escalagem unidirecional do volume de dados, encontrando cada vez mais estrangulamentos na disponibilidade de dados, no custo de aquisição e na eficiência do treino. Neste trabalho, argumentamos que o desenvolvimento da AGI está a entrar numa nova fase de coevolução dados-modelo, na qual os modelos orientam ativamente a gestão de dados, enquanto dados de alta qualidade, por sua vez, amplificam as capacidades dos modelos. Para implementar esta visão, propomos uma estrutura de gestão de dados hierárquica, concebida para suportar todo o ciclo de vida de treino de LLM em objetivos de aprendizagem heterogéneos e restrições de custo. Especificamente, introduzimos uma estrutura de gestão de dados hierárquica L0-L4, que vai desde recursos brutos não curados até conhecimento organizado e verificável. É importante notar que os LLMs são totalmente utilizados nos processos de gestão de dados, como a classificação de qualidade e a edição de conteúdo, para refinar os dados entre os níveis. Cada nível é caracterizado por propriedades de dados distintas, estratégias de gestão e funções de treino, permitindo que os dados sejam alocados estrategicamente nas várias fases de treino de LLM, incluindo pré-treino, meio-treino e alinhamento. A estrutura equilibra a qualidade dos dados, o custo de aquisição e o benefício marginal do treino, fornecendo uma abordagem sistemática para uma gestão de dados escalável e sustentável. Validamos a eficácia da estrutura proposta através de estudos empíricos, nos quais conjuntos de dados hierárquicos são construídos a partir de corpora brutos e utilizados em múltiplas fases de treino. Os resultados experimentais demonstram que a utilização de dados com consciência hierárquica melhora significativamente a eficiência do treino e o desempenho do modelo. Para facilitar investigação futura, disponibilizamos à comunidade os nossos conjuntos de dados hierárquicos e ferramentas de processamento.

English

The development of artificial intelligence can be viewed as an evolution of data-driven learning paradigms, with successive shifts in data organization and utilization continuously driving advances in model capability. Current LLM research is dominated by a paradigm that relies heavily on unidirectional scaling of data size, increasingly encountering bottlenecks in data availability, acquisition cost, and training efficiency. In this work, we argue that the development of AGI is entering a new phase of data-model co-evolution, in which models actively guide data management while high-quality data, in turn, amplifies model capabilities. To implement this vision, we propose a tiered data management framework, designed to support the full LLM training lifecycle across heterogeneous learning objectives and cost constraints. Specifically, we introduce an L0-L4 tiered data management framework, ranging from raw uncurated resources to organized and verifiable knowledge. Importantly, LLMs are fully used in data management processes, such as quality scoring and content editing, to refine data across tiers. Each tier is characterized by distinct data properties, management strategies, and training roles, enabling data to be strategically allocated across LLM training stages, including pre-training, mid-training, and alignment. The framework balances data quality, acquisition cost, and marginal training benefit, providing a systematic approach to scalable and sustainable data management. We validate the effectiveness of the proposed framework through empirical studies, in which tiered datasets are constructed from raw corpora and used across multiple training phases. Experimental results demonstrate that tier-aware data utilization significantly improves training efficiency and model performance. To facilitate further research, we release our tiered datasets and processing tools to the community.