Tracciare le Radici: Un Framework Multi-Agente per Scoprire la Linea Dati nei LLM Post-Addestrati

Abstract

I dati post-addestramento svolgono un ruolo cruciale nel determinare le capacità dei Large Language Model (LLM), eppure i dataset sono spesso trattati come artefatti isolati, trascurando le connessioni sistemiche che ne sottendono l'evoluzione. Per districare queste relazioni complesse, introduciamo il concetto di lignaggio dei dati nell'ecosistema degli LLM e proponiamo un framework multi-agente automatizzato per ricostruire il grafo evolutivo dello sviluppo dei dataset. Attraverso un'analisi su larga scala dei lignaggi, caratterizziamo pattern strutturali dominio-specifici, come l'affinamento verticale nei dataset orientati alla matematica e l'aggregazione orizzontale nei corpora di dominio generale. Inoltre, individuiamo diffuse problematiche sistemiche, inclusa la ridondanza strutturale indotta da intersezioni implicite tra dataset e la propagazione della contaminazione dei benchmark lungo i percorsi di lignaggio. Per dimostrare il valore pratico dell'analisi del lignaggio nella costruzione di dati, sfruttiamo il grafo di lignaggio ricostruito per creare un dataset orientato alla diversità e consapevole del lignaggio. Ancorando il campionamento delle istruzioni alle sorgenti root a monte, questo approccio mitiga l'omogeneizzazione a valle e la ridondanza nascosta, producendo un corpus post-addestramento più diversificato. Sottolineiamo inoltre come l'analisi centrata sul lignaggio rappresenti un'alternativa topologica efficiente e robusta al confronto dei dataset a livello di campione per ecosistemi di dati su larga scala. Basando la costruzione dei dati su strutture di lignaggio esplicite, il nostro lavoro avanza la curatela dei dati post-addestramento verso un paradigma più sistematico e controllabile.

English

Post-training data plays a pivotal role in shaping the capabilities of Large Language Models (LLMs), yet datasets are often treated as isolated artifacts, overlooking the systemic connections that underlie their evolution. To disentangle these complex relationships, we introduce the concept of data lineage to the LLM ecosystem and propose an automated multi-agent framework to reconstruct the evolutionary graph of dataset development. Through large-scale lineage analysis, we characterize domain-specific structural patterns, such as vertical refinement in math-oriented datasets and horizontal aggregation in general-domain corpora. Moreover, we uncover pervasive systemic issues, including structural redundancy induced by implicit dataset intersections and the propagation of benchmark contamination along lineage paths. To demonstrate the practical value of lineage analysis for data construction, we leverage the reconstructed lineage graph to create a lineage-aware diversity-oriented dataset. By anchoring instruction sampling at upstream root sources, this approach mitigates downstream homogenization and hidden redundancy, yielding a more diverse post-training corpus. We further highlight lineage-centric analysis as an efficient and robust topological alternative to sample-level dataset comparison for large-scale data ecosystems. By grounding data construction in explicit lineage structures, our work advances post-training data curation toward a more systematic and controllable paradigm.

Tracciare le Radici: Un Framework Multi-Agente per Scoprire la Linea Dati nei LLM Post-Addestrati

Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs

Abstract

Support