Sur quels modèles nos modèles sont-ils construits ? Auditer les dépendances invisibles dans les LLMs modernes

Résumé

Les pipelines modernes d’entraînement des LLM s’appuient de plus en plus sur d’autres modèles pour générer des données, filtrer des corpus, évaluer des sorties et guider les décisions de développement. Ces dépendances sont récursives : un modèle peut dépendre d’un artefact amont dont les propres dépendances ne sont documentées que dans des versions et artefacts séparés. Par conséquent, la structure complète des dépendances est fragmentée à travers des artefacts publics hétérogènes, avec une complexité et une profondeur récursive qui dépassent largement la capacité humaine de traçage. Nous introduisons ModSleuth, un système agentique qui reconstruit récursivement les graphes de dépendances des LLM à partir d’artefacts publics, avec des preuves ancrées dans les sources. Nous constatons que le principal défi n’est plus l’extraction d’informations, mais la définition de ce qui constitue une dépendance et la conciliation des références entre artefacts dans une documentation incohérente. Nous relevons ces défis grâce à une formalisation qui distingue les dépendances directes et indirectes, représente les rôles hétérogènes des pipelines par des relations centrées sur les opérations, et résout les identités des artefacts à travers les noms, versions et dépôts. En appliquant ModSleuth à quatre versions de LLM riches en artefacts publics, nous récupérons 1 060 dépendances vérifiées par les sources et construisons des graphes de dépendances à grande échelle du développement moderne des LLM. Ces graphes révèlent des obligations de licence multi-sauts, un couplage entraînement-évaluation, des écarts entre les artefacts publiés et ceux utilisés à l’entraînement, ainsi que des incohérences documentaires autrement difficiles à découvrir. Nous publions ModSleuth et les graphes de dépendances qui en résultent afin de soutenir une analyse transparente des écosystèmes de plus en plus complexes qui sous-tendent les LLM modernes.

English

Modern LLM training pipelines increasingly rely on other models to generate data, filter corpora, judge outputs, and guide development decisions. These dependencies are recursive: a model may depend on an upstream artifact whose own dependencies are documented only in separate releases and artifacts. As a result, the full dependency structure is fragmented across heterogeneous public artifacts, with complexity and recursive depth far outpacing humans' ability to trace. We introduce ModSleuth, an agentic system that recursively reconstructs LLM dependency graphs from public artifacts with source-grounded evidence. We find that the primary challenge is no longer information extraction, but defining what constitutes a dependency and reconciling artifact references across inconsistent documentation. We address these challenges through a formalization that distinguishes direct and indirect dependencies, represents heterogeneous pipeline roles through operation-centered relationships, and resolves artifact identities across names, versions, and repositories. Applying ModSleuth to four public-artifact-rich LLM releases, we recover 1,060 source-verified dependencies and construct large-scale dependency graphs of modern LLM development. These graphs reveal multi-hop license obligations, train-evaluation coupling, discrepancies between released and training-time artifacts, and documentation inconsistencies that would otherwise be difficult to uncover. We release ModSleuth and the resulting dependency graphs to support transparent analysis of the increasingly complex ecosystems underlying modern LLMs.