Auf den Spuren der Wurzeln: Ein Multi-Agenten-Framework zur Aufdeckung von Datenherkunft in Post-Training-LLMs

Zusammenfassung

Nachschulungsdaten spielen eine entscheidende Rolle bei der Ausprägung der Fähigkeiten von Large Language Models (LLMs), doch werden Datensätze oft als isolierte Artefakte betrachtet, wobei die systemischen Verbindungen, die ihrer Entwicklung zugrunde liegen, übersehen werden. Um diese komplexen Beziehungen zu entwirren, führen wir das Konzept der Datenlinie in das LLM-Ökosystem ein und schlagen einen automatisierten Multi-Agenten-Ansatz vor, um den Entwicklungsgraphen von Datensätzen zu rekonstruieren. Durch groß angelegte Linienanalysen charakterisieren wir domänenspezifische Strukturmuster, wie vertikale Verfeinerung in mathematisch orientierten Datensätzen und horizontale Aggregation in allgemeinen Domänenkorpora. Darüber hinaus decken wir weit verbreitete systemische Probleme auf, einschließlich struktureller Redundanz durch implizite Datensatzüberschneidungen und der Verbreitung von Benchmark-Kontamination entlang von Linienpfaden. Um den praktischen Nutzen der Linienanalyse für die Datenerstellung zu demonstrieren, nutzen wir den rekonstruierten Liniengraphen zur Erstellung eines linienbasierten, diversitätsorientierten Datensatzes. Durch die Verankerung der Instruktionsstichprobenentnahme an upstream-Wurzeln mildert dieser Ansatz downstream-Homogenisierung und versteckte Redundanz und erzeugt ein diversifizierteres Nachschulungskorpus. Weiterhin zeigen wir auf, dass linienzentrierte Analysen eine effiziente und robuste topologische Alternative zum stichprobenbasierten Datensatzvergleich in großen Datenökosystemen darstellen. Indem wir Datenerstellung auf expliziten Linienstrukturen aufbauen, fördert unsere Arbeit die Nachschulungsdatenkurierung hin zu einem systematischeren und kontrollierbaren Paradigma.

English

Post-training data plays a pivotal role in shaping the capabilities of Large Language Models (LLMs), yet datasets are often treated as isolated artifacts, overlooking the systemic connections that underlie their evolution. To disentangle these complex relationships, we introduce the concept of data lineage to the LLM ecosystem and propose an automated multi-agent framework to reconstruct the evolutionary graph of dataset development. Through large-scale lineage analysis, we characterize domain-specific structural patterns, such as vertical refinement in math-oriented datasets and horizontal aggregation in general-domain corpora. Moreover, we uncover pervasive systemic issues, including structural redundancy induced by implicit dataset intersections and the propagation of benchmark contamination along lineage paths. To demonstrate the practical value of lineage analysis for data construction, we leverage the reconstructed lineage graph to create a lineage-aware diversity-oriented dataset. By anchoring instruction sampling at upstream root sources, this approach mitigates downstream homogenization and hidden redundancy, yielding a more diverse post-training corpus. We further highlight lineage-centric analysis as an efficient and robust topological alternative to sample-level dataset comparison for large-scale data ecosystems. By grounding data construction in explicit lineage structures, our work advances post-training data curation toward a more systematic and controllable paradigm.

Auf den Spuren der Wurzeln: Ein Multi-Agenten-Framework zur Aufdeckung von Datenherkunft in Post-Training-LLMs

Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs

Zusammenfassung

Support