Anatomie d'un écosystème d'apprentissage automatique : 2 millions de modèles sur Hugging Face

papers.abstract

De nombreux observateurs ont constaté que le développement et le déploiement des modèles d'apprentissage automatique (ML) génératifs et d'intelligence artificielle (IA) suivent un schéma distinctif dans lequel des modèles pré-entraînés sont adaptés et affinés pour des tâches spécifiques en aval. Cependant, il existe peu de travaux empiriques examinant la structure de ces interactions. Cet article analyse 1,86 million de modèles sur Hugging Face, une plateforme de production collaborative de premier plan pour le développement de modèles. Notre étude des arbres généalogiques de modèles — des réseaux reliant les modèles affinés à leur base ou parent — révèle des lignées d'affinage étendues qui varient considérablement en taille et en structure. En adoptant une perspective de biologie évolutive pour étudier les modèles de ML, nous utilisons les métadonnées des modèles et les fiches de modèles pour mesurer la similarité génétique et la mutation des traits au sein des familles de modèles. Nous constatons que les modèles tendent à présenter une ressemblance familiale, ce qui signifie que leurs marqueurs génétiques et traits présentent plus de chevauchements lorsqu'ils appartiennent à la même famille de modèles. Cependant, ces similitudes s'écartent à certains égards des modèles standards de reproduction asexuée, car les mutations sont rapides et dirigées, de sorte que deux modèles « frères » tendent à présenter plus de similarité que les paires parent/enfant. Une analyse plus approfondie des dérives directionnelles de ces mutations révèle des insights qualitatifs sur l'écosystème ouvert de l'apprentissage automatique : les licences évoluent de manière contre-intuitive, passant de licences restrictives et commerciales à des licences permissives ou copyleft, souvent en violation des termes des licences en amont ; les modèles évoluent d'une compatibilité multilingue vers une compatibilité uniquement en anglais ; et les fiches de modèles se raccourcissent et se standardisent en recourant plus souvent à des modèles et à du texte généré automatiquement. Globalement, ce travail représente un pas vers une compréhension empiriquement fondée de l'affinage des modèles et suggère que les modèles et méthodes écologiques peuvent apporter de nouvelles perspectives scientifiques.

English

Many have observed that the development and deployment of generative machine learning (ML) and artificial intelligence (AI) models follow a distinctive pattern in which pre-trained models are adapted and fine-tuned for specific downstream tasks. However, there is limited empirical work that examines the structure of these interactions. This paper analyzes 1.86 million models on Hugging Face, a leading peer production platform for model development. Our study of model family trees -- networks that connect fine-tuned models to their base or parent -- reveals sprawling fine-tuning lineages that vary widely in size and structure. Using an evolutionary biology lens to study ML models, we use model metadata and model cards to measure the genetic similarity and mutation of traits over model families. We find that models tend to exhibit a family resemblance, meaning their genetic markers and traits exhibit more overlap when they belong to the same model family. However, these similarities depart in certain ways from standard models of asexual reproduction, because mutations are fast and directed, such that two `sibling' models tend to exhibit more similarity than parent/child pairs. Further analysis of the directional drifts of these mutations reveals qualitative insights about the open machine learning ecosystem: Licenses counter-intuitively drift from restrictive, commercial licenses towards permissive or copyleft licenses, often in violation of upstream license's terms; models evolve from multi-lingual compatibility towards english-only compatibility; and model cards reduce in length and standardize by turning, more often, to templates and automatically generated text. Overall, this work takes a step toward an empirically grounded understanding of model fine-tuning and suggests that ecological models and methods can yield novel scientific insights.

Anatomie d'un écosystème d'apprentissage automatique : 2 millions de modèles sur Hugging Face

Anatomy of a Machine Learning Ecosystem: 2 Million Models on Hugging Face

papers.abstract

Support