Op welke modellen zijn onze modellen gebaseerd? Het auditeren van onzichtbare afhankelijkheden in moderne LLM's

Samenvatting

Moderne LLM-trainingspijplijnen maken steeds vaker gebruik van andere modellen om gegevens te genereren, corpora te filteren, uitvoer te beoordelen en ontwikkelingsbeslissingen te sturen. Deze afhankelijkheden zijn recursief: een model kan afhankelijk zijn van een stroomopwaarts artefact waarvan de eigen afhankelijkheden alleen in afzonderlijke releases en artefacten zijn gedocumenteerd. Hierdoor is de volledige afhankelijkheidsstructuur versnipperd over heterogene publieke artefacten, met een complexiteit en recursieve diepgang die het menselijk vermogen om deze te traceren ver overtreffen. Wij introduceren ModSleuth, een agentisch systeem dat op recursieve wijze LLM-afhankelijkheidsgrafieken reconstrueert uit publieke artefacten met bron-gestuurd bewijs. We stellen vast dat de primaire uitdaging niet langer informatie-extractie is, maar het definiëren van wat een afhankelijkheid inhoudt en het reconcilieren van artefactverwijzingen over inconsistente documentatie heen. We pakken deze uitdagingen aan via een formalisering die onderscheid maakt tussen directe en indirecte afhankelijkheden, heterogene pijplijnrollen vertegenwoordigt via operatiegerichte relaties, en artefactidentiteiten resolveert over namen, versies en repositories heen. Door ModSleuth toe te passen op vier LLM-releases die rijk zijn aan publieke artefacten, hebben we 1.060 bron-geverifieerde afhankelijkheden hersteld en grootschalige afhankelijkheidsgrafieken van moderne LLM-ontwikkeling geconstrueerd. Deze grafieken onthullen meerstapslicentieverplichtingen, train-evaluatiekoppeling, discrepanties tussen vrijgegeven en trainingstijdartefacten, en documentatie-inconsistenties die anders moeilijk te ontdekken zouden zijn. We stellen ModSleuth en de resulterende afhankelijkheidsgrafieken beschikbaar om transparante analyse te ondersteunen van de steeds complexere ecosystemen die ten grondslag liggen aan moderne LLM's.

English

Modern LLM training pipelines increasingly rely on other models to generate data, filter corpora, judge outputs, and guide development decisions. These dependencies are recursive: a model may depend on an upstream artifact whose own dependencies are documented only in separate releases and artifacts. As a result, the full dependency structure is fragmented across heterogeneous public artifacts, with complexity and recursive depth far outpacing humans' ability to trace. We introduce ModSleuth, an agentic system that recursively reconstructs LLM dependency graphs from public artifacts with source-grounded evidence. We find that the primary challenge is no longer information extraction, but defining what constitutes a dependency and reconciling artifact references across inconsistent documentation. We address these challenges through a formalization that distinguishes direct and indirect dependencies, represents heterogeneous pipeline roles through operation-centered relationships, and resolves artifact identities across names, versions, and repositories. Applying ModSleuth to four public-artifact-rich LLM releases, we recover 1,060 source-verified dependencies and construct large-scale dependency graphs of modern LLM development. These graphs reveal multi-hop license obligations, train-evaluation coupling, discrepancies between released and training-time artifacts, and documentation inconsistencies that would otherwise be difficult to uncover. We release ModSleuth and the resulting dependency graphs to support transparent analysis of the increasingly complex ecosystems underlying modern LLMs.