Anatomie van een Machine Learning Ecosysteem: 2 Miljoen Modellen op Hugging Face
Anatomy of a Machine Learning Ecosystem: 2 Million Models on Hugging Face
August 9, 2025
Auteurs: Benjamin Laufer, Hamidah Oderinwale, Jon Kleinberg
cs.AI
Samenvatting
Velen hebben opgemerkt dat de ontwikkeling en implementatie van generatieve machine learning (ML) en kunstmatige intelligentie (AI) modellen een kenmerkend patroon volgen, waarbij vooraf getrainde modellen worden aangepast en verfijnd voor specifieke downstream taken. Er is echter beperkt empirisch onderzoek dat de structuur van deze interacties onderzoekt. Dit artikel analyseert 1,86 miljoen modellen op Hugging Face, een toonaangevend peerproductieplatform voor modelontwikkeling. Onze studie van modelstambomen — netwerken die verfijnde modellen verbinden met hun basis- of ouder-model — onthult uitgebreide verfijningslijnen die sterk variëren in omvang en structuur. Door een evolutionair-biologische lens te gebruiken om ML-modellen te bestuderen, gebruiken we modelmetadata en modelkaarten om de genetische gelijkenis en mutatie van eigenschappen over modelfamilies te meten. We ontdekken dat modellen de neiging hebben om een familiegelijkenis te vertonen, wat betekent dat hun genetische markers en eigenschappen meer overlap vertonen wanneer ze tot dezelfde modelfamilie behoren. Deze overeenkomsten wijken echter op bepaalde manieren af van standaardmodellen van aseksuele reproductie, omdat mutaties snel en gericht zijn, waardoor twee 'broer-zus'-modellen de neiging hebben om meer gelijkenis te vertonen dan ouder/kind-paren. Verdere analyse van de directionele verschuivingen van deze mutaties onthult kwalitatieve inzichten over het open machine learning-ecosysteem: Licenties verschuiven tegen de intuïtie in van restrictieve, commerciële licenties naar permissieve of copyleft-licenties, vaak in strijd met de voorwaarden van upstream-licenties; modellen evolueren van meertalige compatibiliteit naar alleen-Engelse compatibiliteit; en modelkaarten worden korter en gestandaardiseerd door vaker gebruik te maken van sjablonen en automatisch gegenereerde tekst. Over het algemeen zet dit werk een stap in de richting van een empirisch onderbouwd begrip van modelverfijning en suggereert het dat ecologische modellen en methoden nieuwe wetenschappelijke inzichten kunnen opleveren.
English
Many have observed that the development and deployment of generative machine
learning (ML) and artificial intelligence (AI) models follow a distinctive
pattern in which pre-trained models are adapted and fine-tuned for specific
downstream tasks. However, there is limited empirical work that examines the
structure of these interactions. This paper analyzes 1.86 million models on
Hugging Face, a leading peer production platform for model development. Our
study of model family trees -- networks that connect fine-tuned models to their
base or parent -- reveals sprawling fine-tuning lineages that vary widely in
size and structure. Using an evolutionary biology lens to study ML models, we
use model metadata and model cards to measure the genetic similarity and
mutation of traits over model families. We find that models tend to exhibit a
family resemblance, meaning their genetic markers and traits exhibit more
overlap when they belong to the same model family. However, these similarities
depart in certain ways from standard models of asexual reproduction, because
mutations are fast and directed, such that two `sibling' models tend to exhibit
more similarity than parent/child pairs. Further analysis of the directional
drifts of these mutations reveals qualitative insights about the open machine
learning ecosystem: Licenses counter-intuitively drift from restrictive,
commercial licenses towards permissive or copyleft licenses, often in violation
of upstream license's terms; models evolve from multi-lingual compatibility
towards english-only compatibility; and model cards reduce in length and
standardize by turning, more often, to templates and automatically generated
text. Overall, this work takes a step toward an empirically grounded
understanding of model fine-tuning and suggests that ecological models and
methods can yield novel scientific insights.