На каких моделях построены наши модели? Аудит невидимых зависимостей в современных LLM

Аннотация

Современные конвейеры обучения крупных языковых моделей (LLM) всё чаще полагаются на другие модели для генерации данных, фильтрации корпусов, оценки выходных данных и принятия решений по разработке. Эти зависимости носят рекурсивный характер: модель может зависеть от вышестоящего артефакта, чьи собственные зависимости задокументированы только в отдельных релизах и артефактах. В результате полная структура зависимостей оказывается фрагментированной по разнородным публичным артефактам, а её сложность и рекурсивная глубина далеко превосходят способности человека к отслеживанию. Мы представляем ModSleuth — агентную систему, которая рекурсивно восстанавливает графы зависимостей LLM на основе публичных артефактов с доказательствами, основанными на исходных данных. Мы обнаружили, что основная задача больше не заключается в извлечении информации, а в определении того, что считать зависимостью, и в согласовании ссылок на артефакты в непоследовательной документации. Мы решаем эти проблемы с помощью формализации, которая различает прямые и косвенные зависимости, представляет гетерогенные роли конвейера через операционно-центрированные отношения и разрешает идентичность артефактов по именам, версиям и репозиториям. Применяя ModSleuth к четырём релизам LLM, богатым публичными артефактами, мы восстанавливаем 1 060 подтверждённых источниками зависимостей и строим крупномасштабные графы зависимостей современной разработки LLM. Эти графы выявляют многоуровневые лицензионные обязательства, связь обучения и оценки, расхождения между опубликованными артефактами и артефактами времени обучения, а также несоответствия в документации, которые в противном случае было бы трудно обнаружить. Мы публикуем ModSleuth и полученные графы зависимостей для поддержки прозрачного анализа всё более сложных экосистем, лежащих в основе современных LLM.

English

Modern LLM training pipelines increasingly rely on other models to generate data, filter corpora, judge outputs, and guide development decisions. These dependencies are recursive: a model may depend on an upstream artifact whose own dependencies are documented only in separate releases and artifacts. As a result, the full dependency structure is fragmented across heterogeneous public artifacts, with complexity and recursive depth far outpacing humans' ability to trace. We introduce ModSleuth, an agentic system that recursively reconstructs LLM dependency graphs from public artifacts with source-grounded evidence. We find that the primary challenge is no longer information extraction, but defining what constitutes a dependency and reconciling artifact references across inconsistent documentation. We address these challenges through a formalization that distinguishes direct and indirect dependencies, represents heterogeneous pipeline roles through operation-centered relationships, and resolves artifact identities across names, versions, and repositories. Applying ModSleuth to four public-artifact-rich LLM releases, we recover 1,060 source-verified dependencies and construct large-scale dependency graphs of modern LLM development. These graphs reveal multi-hop license obligations, train-evaluation coupling, discrepancies between released and training-time artifacts, and documentation inconsistencies that would otherwise be difficult to uncover. We release ModSleuth and the resulting dependency graphs to support transparent analysis of the increasingly complex ecosystems underlying modern LLMs.