Auf welchen Modellen basieren unsere Modelle? Eine Prüfung unsichtbarer Abhängigkeiten in modernen LLMs

Zusammenfassung

Moderne LLM-Trainingspipelines verlassen sich zunehmend auf andere Modelle, um Daten zu generieren, Korpora zu filtern, Ausgaben zu bewerten und Entwicklungsentscheidungen zu leiten. Diese Abhängigkeiten sind rekursiv: Ein Modell kann von einem vorgelagerten Artefakt abhängen, dessen eigene Abhängigkeiten nur in separaten Releases und Artefakten dokumentiert sind. Infolgedessen ist die vollständige Abhängigkeitsstruktur über heterogene öffentliche Artefakte fragmentiert, wobei Komplexität und rekursive Tiefe die Fähigkeit des Menschen, diese nachzuverfolgen, bei Weitem übersteigen. Wir stellen ModSleuth vor, ein agentisches System, das LLM-Abhängigkeitsgraphen aus öffentlichen Artefakten rekursiv mit quellengestützten Belegen rekonstruiert. Wir stellen fest, dass die größte Herausforderung nicht mehr die Informationsextraktion ist, sondern die Definition, was eine Abhängigkeit darstellt, und die Abstimmung von Artefaktverweisen über inkonsistente Dokumentationen hinweg. Wir begegnen diesen Herausforderungen durch eine Formalisierung, die direkte und indirekte Abhängigkeiten unterscheidet, heterogene Pipeline-Rollen durch operationszentrierte Beziehungen darstellt und Artefaktidentitäten über Namen, Versionen und Repositorien hinweg auflöst. Durch die Anwendung von ModSleuth auf vier an öffentlichen Artefakten reiche LLM-Veröffentlichungen erfassen wir 1.060 quellgeprüfte Abhängigkeiten und konstruieren großangelegte Abhängigkeitsgraphen der modernen LLM-Entwicklung. Diese Graphen offenbaren mehrstufige Lizenzverpflichtungen, Trainings-Evaluations-Kopplungen, Diskrepanzen zwischen veröffentlichten und während des Trainings verwendeten Artefakten sowie Dokumentationsinkonsistenzen, die andernfalls schwer aufzudecken wären. Wir veröffentlichen ModSleuth und die resultierenden Abhängigkeitsgraphen, um eine transparente Analyse der zunehmend komplexen Ökosysteme zu unterstützen, die modernen LLMs zugrunde liegen.

English

Modern LLM training pipelines increasingly rely on other models to generate data, filter corpora, judge outputs, and guide development decisions. These dependencies are recursive: a model may depend on an upstream artifact whose own dependencies are documented only in separate releases and artifacts. As a result, the full dependency structure is fragmented across heterogeneous public artifacts, with complexity and recursive depth far outpacing humans' ability to trace. We introduce ModSleuth, an agentic system that recursively reconstructs LLM dependency graphs from public artifacts with source-grounded evidence. We find that the primary challenge is no longer information extraction, but defining what constitutes a dependency and reconciling artifact references across inconsistent documentation. We address these challenges through a formalization that distinguishes direct and indirect dependencies, represents heterogeneous pipeline roles through operation-centered relationships, and resolves artifact identities across names, versions, and repositories. Applying ModSleuth to four public-artifact-rich LLM releases, we recover 1,060 source-verified dependencies and construct large-scale dependency graphs of modern LLM development. These graphs reveal multi-hop license obligations, train-evaluation coupling, discrepancies between released and training-time artifacts, and documentation inconsistencies that would otherwise be difficult to uncover. We release ModSleuth and the resulting dependency graphs to support transparent analysis of the increasingly complex ecosystems underlying modern LLMs.