Anatomie d'un écosystème d'apprentissage automatique : 2 millions de modèles sur Hugging Face
Anatomy of a Machine Learning Ecosystem: 2 Million Models on Hugging Face
August 9, 2025
papers.authors: Benjamin Laufer, Hamidah Oderinwale, Jon Kleinberg
cs.AI
papers.abstract
De nombreux observateurs ont constaté que le développement et le déploiement des modèles d'apprentissage automatique (ML) génératifs et d'intelligence artificielle (IA) suivent un schéma distinctif dans lequel des modèles pré-entraînés sont adaptés et affinés pour des tâches spécifiques en aval. Cependant, il existe peu de travaux empiriques examinant la structure de ces interactions. Cet article analyse 1,86 million de modèles sur Hugging Face, une plateforme de production collaborative de premier plan pour le développement de modèles. Notre étude des arbres généalogiques de modèles — des réseaux reliant les modèles affinés à leur base ou parent — révèle des lignées d'affinage étendues qui varient considérablement en taille et en structure. En adoptant une perspective de biologie évolutive pour étudier les modèles de ML, nous utilisons les métadonnées des modèles et les fiches de modèles pour mesurer la similarité génétique et la mutation des traits au sein des familles de modèles. Nous constatons que les modèles tendent à présenter une ressemblance familiale, ce qui signifie que leurs marqueurs génétiques et traits présentent plus de chevauchements lorsqu'ils appartiennent à la même famille de modèles. Cependant, ces similitudes s'écartent à certains égards des modèles standards de reproduction asexuée, car les mutations sont rapides et dirigées, de sorte que deux modèles « frères » tendent à présenter plus de similarité que les paires parent/enfant. Une analyse plus approfondie des dérives directionnelles de ces mutations révèle des insights qualitatifs sur l'écosystème ouvert de l'apprentissage automatique : les licences évoluent de manière contre-intuitive, passant de licences restrictives et commerciales à des licences permissives ou copyleft, souvent en violation des termes des licences en amont ; les modèles évoluent d'une compatibilité multilingue vers une compatibilité uniquement en anglais ; et les fiches de modèles se raccourcissent et se standardisent en recourant plus souvent à des modèles et à du texte généré automatiquement. Globalement, ce travail représente un pas vers une compréhension empiriquement fondée de l'affinage des modèles et suggère que les modèles et méthodes écologiques peuvent apporter de nouvelles perspectives scientifiques.
English
Many have observed that the development and deployment of generative machine
learning (ML) and artificial intelligence (AI) models follow a distinctive
pattern in which pre-trained models are adapted and fine-tuned for specific
downstream tasks. However, there is limited empirical work that examines the
structure of these interactions. This paper analyzes 1.86 million models on
Hugging Face, a leading peer production platform for model development. Our
study of model family trees -- networks that connect fine-tuned models to their
base or parent -- reveals sprawling fine-tuning lineages that vary widely in
size and structure. Using an evolutionary biology lens to study ML models, we
use model metadata and model cards to measure the genetic similarity and
mutation of traits over model families. We find that models tend to exhibit a
family resemblance, meaning their genetic markers and traits exhibit more
overlap when they belong to the same model family. However, these similarities
depart in certain ways from standard models of asexual reproduction, because
mutations are fast and directed, such that two `sibling' models tend to exhibit
more similarity than parent/child pairs. Further analysis of the directional
drifts of these mutations reveals qualitative insights about the open machine
learning ecosystem: Licenses counter-intuitively drift from restrictive,
commercial licenses towards permissive or copyleft licenses, often in violation
of upstream license's terms; models evolve from multi-lingual compatibility
towards english-only compatibility; and model cards reduce in length and
standardize by turning, more often, to templates and automatically generated
text. Overall, this work takes a step toward an empirically grounded
understanding of model fine-tuning and suggests that ecological models and
methods can yield novel scientific insights.