Анатомия экосистемы машинного обучения: 2 миллиона моделей на Hugging Face
Anatomy of a Machine Learning Ecosystem: 2 Million Models on Hugging Face
August 9, 2025
Авторы: Benjamin Laufer, Hamidah Oderinwale, Jon Kleinberg
cs.AI
Аннотация
Многие отмечают, что разработка и внедрение генеративных моделей машинного обучения (ML) и искусственного интеллекта (AI) следуют характерному паттерну, в котором предварительно обученные модели адаптируются и дорабатываются для выполнения конкретных задач. Однако эмпирических исследований, посвященных структуре этих взаимодействий, недостаточно. В данной статье анализируются 1,86 миллиона моделей на платформе Hugging Face, ведущей платформе совместной разработки моделей. Наше исследование генеалогических деревьев моделей — сетей, связывающих доработанные модели с их базовыми или родительскими версиями — выявляет обширные линии доработки, которые значительно различаются по размеру и структуре. Используя подход эволюционной биологии для изучения моделей ML, мы анализируем метаданные моделей и их описания (model cards), чтобы измерить генетическое сходство и мутацию признаков в рамках семейств моделей. Мы обнаруживаем, что модели, как правило, демонстрируют семейное сходство, то есть их генетические маркеры и признаки имеют больше совпадений, если они принадлежат к одному семейству моделей. Однако эти сходства в определенных аспектах отличаются от стандартных моделей бесполого размножения, поскольку мутации происходят быстро и направленно, так что две «сестринские» модели, как правило, демонстрируют больше сходства, чем пары родитель/потомок. Дополнительный анализ направленных изменений этих мутаций позволяет получить качественные инсайты об открытой экосистеме машинного обучения: лицензии, вопреки ожиданиям, смещаются от ограничительных коммерческих лицензий к разрешительным или копилефтным, часто нарушая условия вышестоящих лицензий; модели эволюционируют от многоязычной совместимости к совместимости только с английским языком; описания моделей сокращаются и стандартизируются, чаще используя шаблоны и автоматически сгенерированный текст. В целом, данная работа делает шаг к эмпирически обоснованному пониманию процесса доработки моделей и показывает, что экологические модели и методы могут давать новые научные инсайты.
English
Many have observed that the development and deployment of generative machine
learning (ML) and artificial intelligence (AI) models follow a distinctive
pattern in which pre-trained models are adapted and fine-tuned for specific
downstream tasks. However, there is limited empirical work that examines the
structure of these interactions. This paper analyzes 1.86 million models on
Hugging Face, a leading peer production platform for model development. Our
study of model family trees -- networks that connect fine-tuned models to their
base or parent -- reveals sprawling fine-tuning lineages that vary widely in
size and structure. Using an evolutionary biology lens to study ML models, we
use model metadata and model cards to measure the genetic similarity and
mutation of traits over model families. We find that models tend to exhibit a
family resemblance, meaning their genetic markers and traits exhibit more
overlap when they belong to the same model family. However, these similarities
depart in certain ways from standard models of asexual reproduction, because
mutations are fast and directed, such that two `sibling' models tend to exhibit
more similarity than parent/child pairs. Further analysis of the directional
drifts of these mutations reveals qualitative insights about the open machine
learning ecosystem: Licenses counter-intuitively drift from restrictive,
commercial licenses towards permissive or copyleft licenses, often in violation
of upstream license's terms; models evolve from multi-lingual compatibility
towards english-only compatibility; and model cards reduce in length and
standardize by turning, more often, to templates and automatically generated
text. Overall, this work takes a step toward an empirically grounded
understanding of model fine-tuning and suggests that ecological models and
methods can yield novel scientific insights.