Anatomia di un Ecosistema di Machine Learning: 2 Milioni di Modelli su Hugging Face
Anatomy of a Machine Learning Ecosystem: 2 Million Models on Hugging Face
August 9, 2025
Autori: Benjamin Laufer, Hamidah Oderinwale, Jon Kleinberg
cs.AI
Abstract
Molti hanno osservato che lo sviluppo e il dispiegamento di modelli generativi di machine learning (ML) e intelligenza artificiale (IA) seguono uno schema distintivo in cui modelli pre-addestrati vengono adattati e perfezionati per specifici compiti downstream. Tuttavia, esistono pochi studi empirici che esaminano la struttura di queste interazioni. Questo articolo analizza 1,86 milioni di modelli su Hugging Face, una delle principali piattaforme di produzione peer per lo sviluppo di modelli. Il nostro studio sugli alberi genealogici dei modelli — reti che collegano i modelli perfezionati ai loro modelli base o genitori — rivela lignaggi di fine-tuning estesi che variano ampiamente in dimensioni e struttura. Utilizzando una lente della biologia evolutiva per studiare i modelli di ML, impieghiamo metadati dei modelli e schede tecniche per misurare la somiglianza genetica e la mutazione delle caratteristiche all'interno delle famiglie di modelli. Scopriamo che i modelli tendono a mostrare una somiglianza familiare, il che significa che i loro marcatori genetici e caratteristiche presentano una maggiore sovrapposizione quando appartengono alla stessa famiglia di modelli. Tuttavia, queste somiglianze si discostano in certi aspetti dai modelli standard di riproduzione asessuata, poiché le mutazioni sono rapide e dirette, tanto che due modelli "fratelli" tendono a mostrare una maggiore somiglianza rispetto alle coppie genitore/figlio. Un'ulteriore analisi delle derive direzionali di queste mutazioni rivela intuizioni qualitative sull'ecosistema open del machine learning: le licenze, controintuitivamente, passano da licenze restrittive e commerciali a licenze permissive o copyleft, spesso violando i termini delle licenze upstream; i modelli evolvono dalla compatibilità multilingue verso la compatibilità esclusiva con l'inglese; e le schede tecniche si riducono in lunghezza e si standardizzano, ricorrendo più spesso a modelli e testo generato automaticamente. Nel complesso, questo lavoro compie un passo verso una comprensione empiricamente fondata del fine-tuning dei modelli e suggerisce che i modelli e i metodi ecologici possono produrre nuove intuizioni scientifiche.
English
Many have observed that the development and deployment of generative machine
learning (ML) and artificial intelligence (AI) models follow a distinctive
pattern in which pre-trained models are adapted and fine-tuned for specific
downstream tasks. However, there is limited empirical work that examines the
structure of these interactions. This paper analyzes 1.86 million models on
Hugging Face, a leading peer production platform for model development. Our
study of model family trees -- networks that connect fine-tuned models to their
base or parent -- reveals sprawling fine-tuning lineages that vary widely in
size and structure. Using an evolutionary biology lens to study ML models, we
use model metadata and model cards to measure the genetic similarity and
mutation of traits over model families. We find that models tend to exhibit a
family resemblance, meaning their genetic markers and traits exhibit more
overlap when they belong to the same model family. However, these similarities
depart in certain ways from standard models of asexual reproduction, because
mutations are fast and directed, such that two `sibling' models tend to exhibit
more similarity than parent/child pairs. Further analysis of the directional
drifts of these mutations reveals qualitative insights about the open machine
learning ecosystem: Licenses counter-intuitively drift from restrictive,
commercial licenses towards permissive or copyleft licenses, often in violation
of upstream license's terms; models evolve from multi-lingual compatibility
towards english-only compatibility; and model cards reduce in length and
standardize by turning, more often, to templates and automatically generated
text. Overall, this work takes a step toward an empirically grounded
understanding of model fine-tuning and suggests that ecological models and
methods can yield novel scientific insights.