Anatomie eines Machine-Learning-Ökosystems: 2 Millionen Modelle auf Hugging Face
Anatomy of a Machine Learning Ecosystem: 2 Million Models on Hugging Face
August 9, 2025
papers.authors: Benjamin Laufer, Hamidah Oderinwale, Jon Kleinberg
cs.AI
papers.abstract
Viele haben beobachtet, dass die Entwicklung und Bereitstellung von generativem maschinellem Lernen (ML) und künstlicher Intelligenz (KI) einem charakteristischen Muster folgt, bei dem vortrainierte Modelle für spezifische Downstream-Aufgaben angepasst und feinabgestimmt werden. Es gibt jedoch nur begrenzte empirische Arbeiten, die die Struktur dieser Interaktionen untersuchen. Diese Arbeit analysiert 1,86 Millionen Modelle auf Hugging Face, einer führenden Plattform für die gemeinschaftliche Entwicklung von Modellen. Unsere Studie von Modell-Stammbäumen – Netzwerken, die feinabgestimmte Modelle mit ihren Basis- oder Elternmodellen verbinden – zeigt weitläufige Feinabstimmungslinien, die stark in Größe und Struktur variieren. Unter Verwendung einer evolutionären Biologie-Perspektive zur Untersuchung von ML-Modellen nutzen wir Modell-Metadaten und Modellkarten, um die genetische Ähnlichkeit und die Mutation von Merkmalen über Modellfamilien hinweg zu messen. Wir stellen fest, dass Modelle tendenziell eine Familienähnlichkeit aufweisen, was bedeutet, dass ihre genetischen Marker und Merkmale mehr Überschneidungen zeigen, wenn sie derselben Modellfamilie angehören. Diese Ähnlichkeiten weichen jedoch in bestimmten Aspekten von Standardmodellen der asexuellen Fortpflanzung ab, da Mutationen schnell und gerichtet sind, sodass zwei „Geschwister“-Modelle tendenziell mehr Ähnlichkeit aufweisen als Eltern/Kind-Paare. Eine weitere Analyse der Richtungsdrifts dieser Mutationen liefert qualitative Einblicke in das offene Ökosystem des maschinellen Lernens: Lizenzen entwickeln sich kontraintuitiv von restriktiven, kommerziellen Lizenzen hin zu freizügigen oder Copyleft-Lizenzen, oft in Verletzung der Bedingungen der Upstream-Lizenzen; Modelle entwickeln sich von mehrsprachiger Kompatibilität hin zu ausschließlich englischer Kompatibilität; und Modellkarten werden kürzer und standardisieren sich, indem sie häufiger auf Vorlagen und automatisch generierten Text zurückgreifen. Insgesamt leistet diese Arbeit einen Schritt hin zu einem empirisch fundierten Verständnis der Feinabstimmung von Modellen und legt nahe, dass ökologische Modelle und Methoden neue wissenschaftliche Erkenntnisse liefern können.
English
Many have observed that the development and deployment of generative machine
learning (ML) and artificial intelligence (AI) models follow a distinctive
pattern in which pre-trained models are adapted and fine-tuned for specific
downstream tasks. However, there is limited empirical work that examines the
structure of these interactions. This paper analyzes 1.86 million models on
Hugging Face, a leading peer production platform for model development. Our
study of model family trees -- networks that connect fine-tuned models to their
base or parent -- reveals sprawling fine-tuning lineages that vary widely in
size and structure. Using an evolutionary biology lens to study ML models, we
use model metadata and model cards to measure the genetic similarity and
mutation of traits over model families. We find that models tend to exhibit a
family resemblance, meaning their genetic markers and traits exhibit more
overlap when they belong to the same model family. However, these similarities
depart in certain ways from standard models of asexual reproduction, because
mutations are fast and directed, such that two `sibling' models tend to exhibit
more similarity than parent/child pairs. Further analysis of the directional
drifts of these mutations reveals qualitative insights about the open machine
learning ecosystem: Licenses counter-intuitively drift from restrictive,
commercial licenses towards permissive or copyleft licenses, often in violation
of upstream license's terms; models evolve from multi-lingual compatibility
towards english-only compatibility; and model cards reduce in length and
standardize by turning, more often, to templates and automatically generated
text. Overall, this work takes a step toward an empirically grounded
understanding of model fine-tuning and suggests that ecological models and
methods can yield novel scientific insights.