Traçage des origines : un cadre multi-agent pour retracer la lignée des données dans les LLMs post-entraînés

Résumé

Les données post-entraînement jouent un rôle déterminant dans le façonnement des capacités des grands modèles de langage (LLM), pourtant les jeux de données sont souvent traités comme des artefacts isolés, négligeant les connexions systémiques sous-jacentes à leur évolution. Pour démêler ces relations complexes, nous introduisons le concept de lignée des données dans l'écosystème des LLM et proposons un cadre multi-agent automatisé pour reconstruire le graphe évolutif du développement des jeux de données. Par une analyse à grande échelle des lignées, nous caractérisons des motifs structurels spécifiques à des domaines, tels que le raffinement vertical dans les jeux de données orientés mathématiques et l'agrégation horizontale dans les corpus du domaine général. De plus, nous mettons en lumière des problèmes systémiques persistants, incluant la redondance structurelle induite par des intersections implicites de jeux de données et la propagation de la contamination des benchmarks le long des chemins de lignée. Pour démontrer la valeur pratique de l'analyse de lignée pour la construction des données, nous utilisons le graphe de lignée reconstruit pour créer un jeu de données axé sur la diversité et conscient des lignées. En ancrant l'échantillonnage d'instructions à des sources racines amont, cette approche atténue l'homogénéisation en aval et la redondance cachée, produisant un corpus post-entraînement plus diversifié. Nous soulignons en outre l'analyse centrée sur la lignée comme une alternative topologique robuste et efficace à la comparaison de jeux de données au niveau de l'échantillon pour les écosystèmes de données à grande échelle. En fondant la construction des données sur des structures de lignée explicites, notre travail fait progresser la curation des données post-entraînement vers un paradigme plus systématique et contrôlable.

English

Post-training data plays a pivotal role in shaping the capabilities of Large Language Models (LLMs), yet datasets are often treated as isolated artifacts, overlooking the systemic connections that underlie their evolution. To disentangle these complex relationships, we introduce the concept of data lineage to the LLM ecosystem and propose an automated multi-agent framework to reconstruct the evolutionary graph of dataset development. Through large-scale lineage analysis, we characterize domain-specific structural patterns, such as vertical refinement in math-oriented datasets and horizontal aggregation in general-domain corpora. Moreover, we uncover pervasive systemic issues, including structural redundancy induced by implicit dataset intersections and the propagation of benchmark contamination along lineage paths. To demonstrate the practical value of lineage analysis for data construction, we leverage the reconstructed lineage graph to create a lineage-aware diversity-oriented dataset. By anchoring instruction sampling at upstream root sources, this approach mitigates downstream homogenization and hidden redundancy, yielding a more diverse post-training corpus. We further highlight lineage-centric analysis as an efficient and robust topological alternative to sample-level dataset comparison for large-scale data ecosystems. By grounding data construction in explicit lineage structures, our work advances post-training data curation toward a more systematic and controllable paradigm.

Traçage des origines : un cadre multi-agent pour retracer la lignée des données dans les LLMs post-entraînés

Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs

Résumé

Support