Data Science e Tecnologia verso l'AGI Parte I: Gestione Dati a Livelli

Abstract

Lo sviluppo dell'intelligenza artificiale può essere considerato come un'evoluzione dei paradigmi di apprendimento basati sui dati, in cui i successivi cambiamenti nell'organizzazione e nell'utilizzo delle informazioni guidano continuamente i progressi delle capacità dei modelli. La ricerca attuale sui LLM è dominata da un paradigma che si affida pesantemente alla scalabilità unidirezionale della dimensione dei dati, incontrando sempre più frequentemente colli di bottiglia nella disponibilità dei dati, nei costi di acquisizione e nell'efficienza dell'addestramento. In questo lavoro, sosteniamo che lo sviluppo dell'AGI stia entrando in una nuova fase di co-evoluzione dati-modello, in cui i modelli guidano attivamente la gestione dei dati mentre dati di alta qualità, a loro volta, amplificano le capacità del modello. Per realizzare questa visione, proponiamo un framework di gestione dei dati a livelli, progettato per supportare l'intero ciclo di vita dell'addestramento di LLM attraverso obiettivi di apprendimento eterogenei e vincoli di costo. Nello specifico, introduciamo un framework di gestione dati a livelli L0-L4, che spazia da risorse grezze non curate a conoscenza organizzata e verificabile. È importante sottolineare che i LLM vengono utilizzati appieno nei processi di gestione dei dati, come lo scoring della qualità e l'editing dei contenuti, per affinare i dati attraverso i vari livelli. Ogni livello è caratterizzato da proprietà distinte dei dati, strategie di gestione e ruoli nell'addestramento, consentendo ai dati di essere allocati strategicamente attraverso le fasi di training dei LLM, inclusi pre-training, mid-training e allineamento. Il framework bilancia qualità dei dati, costo di acquisizione e beneficio marginale dell'addestramento, fornendo un approccio sistematico per una gestione dei dati scalabile e sostenibile. Convalidiamo l'efficacia del framework proposto attraverso studi empirici, in cui dataset suddivisi in livelli vengono costruiti a partire da corpora grezzi e utilizzati in multiple fasi di addestramento. I risultati sperimentali dimostrano che un utilizzo dei dati consapevole dei livelli migliora significativamente l'efficienza dell'addestramento e le prestazioni del modello. Per facilitare ulteriori ricerche, rendiamo disponibili alla comunità i nostri dataset suddivisi in livelli e gli strumenti di elaborazione.

English

The development of artificial intelligence can be viewed as an evolution of data-driven learning paradigms, with successive shifts in data organization and utilization continuously driving advances in model capability. Current LLM research is dominated by a paradigm that relies heavily on unidirectional scaling of data size, increasingly encountering bottlenecks in data availability, acquisition cost, and training efficiency. In this work, we argue that the development of AGI is entering a new phase of data-model co-evolution, in which models actively guide data management while high-quality data, in turn, amplifies model capabilities. To implement this vision, we propose a tiered data management framework, designed to support the full LLM training lifecycle across heterogeneous learning objectives and cost constraints. Specifically, we introduce an L0-L4 tiered data management framework, ranging from raw uncurated resources to organized and verifiable knowledge. Importantly, LLMs are fully used in data management processes, such as quality scoring and content editing, to refine data across tiers. Each tier is characterized by distinct data properties, management strategies, and training roles, enabling data to be strategically allocated across LLM training stages, including pre-training, mid-training, and alignment. The framework balances data quality, acquisition cost, and marginal training benefit, providing a systematic approach to scalable and sustainable data management. We validate the effectiveness of the proposed framework through empirical studies, in which tiered datasets are constructed from raw corpora and used across multiple training phases. Experimental results demonstrate that tier-aware data utilization significantly improves training efficiency and model performance. To facilitate further research, we release our tiered datasets and processing tools to the community.

Data Science e Tecnologia verso l'AGI Parte I: Gestione Dati a Livelli

Data Science and Technology Towards AGI Part I: Tiered Data Management

Abstract

Support