Em Que Modelos Nossos Modelos São Baseados? Auditando Dependências Invisíveis em LLMs Modernos

Resumo

Os pipelines modernos de treinamento de LLMs dependem cada vez mais de outros modelos para gerar dados, filtrar corpora, julgar resultados e orientar decisões de desenvolvimento. Essas dependências são recursivas: um modelo pode depender de um artefato upstream cujas próprias dependências são documentadas apenas em versões e artefatos separados. Como resultado, a estrutura completa de dependências fica fragmentada em artefatos públicos heterogêneos, com complexidade e profundidade recursiva muito além da capacidade humana de rastreamento. Apresentamos o ModSleuth, um sistema agentivo que reconstrói recursivamente grafos de dependência de LLMs a partir de artefatos públicos, com evidências fundamentadas na fonte. Descobrimos que o principal desafio não é mais a extração de informações, mas sim definir o que constitui uma dependência e reconciliar referências a artefatos em documentações inconsistentes. Abordamos esses desafios por meio de uma formalização que distingue dependências diretas e indiretas, representa funções heterogêneas nos pipelines por meio de relacionamentos centrados em operações e resolve identidades de artefatos entre nomes, versões e repositórios. Aplicando o ModSleuth a quatro lançamentos de LLMs ricos em artefatos públicos, recuperamos 1.060 dependências verificadas na fonte e construímos grafos de dependência em larga escala do desenvolvimento moderno de LLMs. Esses grafos revelam obrigações de licença em múltiplos saltos, acoplamento entre treino e avaliação, discrepâncias entre artefatos lançados e artefatos usados no treinamento, e inconsistências na documentação que, de outra forma, seriam difíceis de descobrir. Disponibilizamos o ModSleuth e os grafos de dependência resultantes para apoiar a análise transparente dos ecossistemas cada vez mais complexos subjacentes aos LLMs modernos.

English

Modern LLM training pipelines increasingly rely on other models to generate data, filter corpora, judge outputs, and guide development decisions. These dependencies are recursive: a model may depend on an upstream artifact whose own dependencies are documented only in separate releases and artifacts. As a result, the full dependency structure is fragmented across heterogeneous public artifacts, with complexity and recursive depth far outpacing humans' ability to trace. We introduce ModSleuth, an agentic system that recursively reconstructs LLM dependency graphs from public artifacts with source-grounded evidence. We find that the primary challenge is no longer information extraction, but defining what constitutes a dependency and reconciling artifact references across inconsistent documentation. We address these challenges through a formalization that distinguishes direct and indirect dependencies, represents heterogeneous pipeline roles through operation-centered relationships, and resolves artifact identities across names, versions, and repositories. Applying ModSleuth to four public-artifact-rich LLM releases, we recover 1,060 source-verified dependencies and construct large-scale dependency graphs of modern LLM development. These graphs reveal multi-hop license obligations, train-evaluation coupling, discrepancies between released and training-time artifacts, and documentation inconsistencies that would otherwise be difficult to uncover. We release ModSleuth and the resulting dependency graphs to support transparent analysis of the increasingly complex ecosystems underlying modern LLMs.