¿En qué modelos se basan nuestros modelos? Auditoría de dependencias invisibles en LLMs modernos

Resumen

Los pipelines modernos de entrenamiento de LLM dependen cada vez más de otros modelos para generar datos, filtrar corpus, evaluar resultados y guiar decisiones de desarrollo. Estas dependencias son recursivas: un modelo puede depender de un artefacto upstream cuyas propias dependencias están documentadas solo en versiones y artefactos separados. Como resultado, la estructura completa de dependencias se encuentra fragmentada en artefactos públicos heterogéneos, con una complejidad y profundidad recursiva que supera con creces la capacidad humana de rastreo. Introducimos ModSleuth, un sistema agéntico que reconstruye recursivamente grafos de dependencias de LLM a partir de artefactos públicos con evidencia fundamentada en las fuentes. Descubrimos que el principal desafío ya no es la extracción de información, sino definir qué constituye una dependencia y reconciliar las referencias a artefactos en documentación incongruente. Abordamos estos desafíos mediante una formalización que distingue dependencias directas e indirectas, representa roles heterogéneos del pipeline a través de relaciones centradas en operaciones, y resuelve identidades de artefactos entre nombres, versiones y repositorios. Aplicando ModSleuth a cuatro publicaciones de LLM ricas en artefactos públicos, recuperamos 1 060 dependencias verificadas en las fuentes y construimos grafos de dependencia a gran escala del desarrollo moderno de LLM. Estos grafos revelan obligaciones de licencia en múltiples saltos, acoplamiento entre entrenamiento y evaluación, discrepancias entre artefactos publicados y los utilizados en el entrenamiento, e incoherencias en la documentación que de otro modo serían difíciles de detectar. Publicamos ModSleuth y los grafos de dependencia resultantes para apoyar un análisis transparente de los ecosistemas cada vez más complejos que subyacen a los LLM modernos.

English

Modern LLM training pipelines increasingly rely on other models to generate data, filter corpora, judge outputs, and guide development decisions. These dependencies are recursive: a model may depend on an upstream artifact whose own dependencies are documented only in separate releases and artifacts. As a result, the full dependency structure is fragmented across heterogeneous public artifacts, with complexity and recursive depth far outpacing humans' ability to trace. We introduce ModSleuth, an agentic system that recursively reconstructs LLM dependency graphs from public artifacts with source-grounded evidence. We find that the primary challenge is no longer information extraction, but defining what constitutes a dependency and reconciling artifact references across inconsistent documentation. We address these challenges through a formalization that distinguishes direct and indirect dependencies, represents heterogeneous pipeline roles through operation-centered relationships, and resolves artifact identities across names, versions, and repositories. Applying ModSleuth to four public-artifact-rich LLM releases, we recover 1,060 source-verified dependencies and construct large-scale dependency graphs of modern LLM development. These graphs reveal multi-hop license obligations, train-evaluation coupling, discrepancies between released and training-time artifacts, and documentation inconsistencies that would otherwise be difficult to uncover. We release ModSleuth and the resulting dependency graphs to support transparent analysis of the increasingly complex ecosystems underlying modern LLMs.