Op Spoor naar de Oorsprong: Een Multi-Agent Raamwerk voor het Blootleggen van Data Lineage in Post-Training LLM's
Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs
April 12, 2026
Auteurs: Yu Li, Xiaoran Shang, Qizhi Pei, Yun Zhu, Xin Gao, Honglin Lin, Zhanping Zhong, Zhuoshi Pan, Zheng Liu, Xiaoyang Wang, Conghui He, Dahua Lin, Feng Zhao, Lijun Wu
cs.AI
Samenvatting
Post-trainingsgegevens spelen een cruciale rol bij het vormgeven van de capaciteiten van grote taalmmodellen (LLM's), maar datasets worden vaak behandeld als geïsoleerde artefacten, waarbij de systemische verbanden die ten grondslag liggen aan hun evolutie over het hoofd worden gezien. Om deze complexe relaties te ontrafelen, introduceren we het concept van datalineage in het LLM-ecosysteem en stellen we een geautomatiseerd multi-agent raamwerk voor om de evolutionaire grafiek van datasetontwikkeling te reconstrueren. Door grootschalige lineage-analyse karakteriseren we domeinspecifieke structurele patronen, zoals verticale verfijning in wiskundige datasets en horizontale aggregatie in algemene-domeincorpora. Bovendien leggen we wijdverspreide systemische problemen bloot, waaronder structurele redundantie veroorzaakt door impliciete datasetintersecties en de verspreiding van benchmarkcontaminatie langs lineagepaden. Om de praktische waarde van lineage-analyse voor dataconstructie aan te tonen, benutten we de gereconstrueerde lineagegrafiek om een lineage-bewuste, op diversiteit gerichte dataset te creëren. Door instructie-steekproeven te verankeren bij upstream bronnen, vermindert deze aanpak downstream homogenisering en verborgen redundantie, wat resulteert in een diverser post-trainingscorpus. We belichten verder lineage-centrische analyse als een efficiënt en robuust topologisch alternatief voor datasetvergelijking op steekproefniveau in grootschalige data-ecosystemen. Door dataconstructie te verankeren in expliciete lineagestructuren, bevordert ons werk post-training datacuratie naar een meer systematisch en controleerbaar paradigma.
English
Post-training data plays a pivotal role in shaping the capabilities of Large Language Models (LLMs), yet datasets are often treated as isolated artifacts, overlooking the systemic connections that underlie their evolution. To disentangle these complex relationships, we introduce the concept of data lineage to the LLM ecosystem and propose an automated multi-agent framework to reconstruct the evolutionary graph of dataset development. Through large-scale lineage analysis, we characterize domain-specific structural patterns, such as vertical refinement in math-oriented datasets and horizontal aggregation in general-domain corpora. Moreover, we uncover pervasive systemic issues, including structural redundancy induced by implicit dataset intersections and the propagation of benchmark contamination along lineage paths. To demonstrate the practical value of lineage analysis for data construction, we leverage the reconstructed lineage graph to create a lineage-aware diversity-oriented dataset. By anchoring instruction sampling at upstream root sources, this approach mitigates downstream homogenization and hidden redundancy, yielding a more diverse post-training corpus. We further highlight lineage-centric analysis as an efficient and robust topological alternative to sample-level dataset comparison for large-scale data ecosystems. By grounding data construction in explicit lineage structures, our work advances post-training data curation toward a more systematic and controllable paradigm.