Anatomía de un ecosistema de aprendizaje automático: 2 millones de modelos en Hugging Face
Anatomy of a Machine Learning Ecosystem: 2 Million Models on Hugging Face
August 9, 2025
Autores: Benjamin Laufer, Hamidah Oderinwale, Jon Kleinberg
cs.AI
Resumen
Muchos han observado que el desarrollo y despliegue de modelos generativos de aprendizaje automático (ML) e inteligencia artificial (IA) siguen un patrón distintivo en el que los modelos preentrenados se adaptan y ajustan para tareas específicas posteriores. Sin embargo, existe un trabajo empírico limitado que examina la estructura de estas interacciones. Este artículo analiza 1.86 millones de modelos en Hugging Face, una plataforma líder de producción colaborativa para el desarrollo de modelos. Nuestro estudio de los árboles genealógicos de modelos —redes que conectan modelos ajustados con sus bases o progenitores— revela linajes de ajuste extensos que varían ampliamente en tamaño y estructura. Utilizando una lente de biología evolutiva para estudiar los modelos de ML, empleamos metadatos de modelos y fichas técnicas para medir la similitud genética y la mutación de rasgos en las familias de modelos. Encontramos que los modelos tienden a exhibir un parecido familiar, lo que significa que sus marcadores genéticos y rasgos muestran más superposición cuando pertenecen a la misma familia de modelos. Sin embargo, estas similitudes se desvían en ciertos aspectos de los modelos estándar de reproducción asexual, porque las mutaciones son rápidas y dirigidas, de modo que dos modelos "hermanos" tienden a exhibir más similitud que los pares progenitor/descendiente. Un análisis más profundo de las derivas direccionales de estas mutaciones revela insights cualitativos sobre el ecosistema abierto de aprendizaje automático: las licencias, de manera contraintuitiva, derivan de licencias restrictivas y comerciales hacia licencias permisivas o copyleft, a menudo violando los términos de las licencias originales; los modelos evolucionan de la compatibilidad multilingüe hacia la compatibilidad exclusiva en inglés; y las fichas técnicas se reducen en longitud y se estandarizan al recurrir, con mayor frecuencia, a plantillas y texto generado automáticamente. En general, este trabajo da un paso hacia una comprensión empíricamente fundamentada del ajuste de modelos y sugiere que los modelos y métodos ecológicos pueden generar insights científicos novedosos.
English
Many have observed that the development and deployment of generative machine
learning (ML) and artificial intelligence (AI) models follow a distinctive
pattern in which pre-trained models are adapted and fine-tuned for specific
downstream tasks. However, there is limited empirical work that examines the
structure of these interactions. This paper analyzes 1.86 million models on
Hugging Face, a leading peer production platform for model development. Our
study of model family trees -- networks that connect fine-tuned models to their
base or parent -- reveals sprawling fine-tuning lineages that vary widely in
size and structure. Using an evolutionary biology lens to study ML models, we
use model metadata and model cards to measure the genetic similarity and
mutation of traits over model families. We find that models tend to exhibit a
family resemblance, meaning their genetic markers and traits exhibit more
overlap when they belong to the same model family. However, these similarities
depart in certain ways from standard models of asexual reproduction, because
mutations are fast and directed, such that two `sibling' models tend to exhibit
more similarity than parent/child pairs. Further analysis of the directional
drifts of these mutations reveals qualitative insights about the open machine
learning ecosystem: Licenses counter-intuitively drift from restrictive,
commercial licenses towards permissive or copyleft licenses, often in violation
of upstream license's terms; models evolve from multi-lingual compatibility
towards english-only compatibility; and model cards reduce in length and
standardize by turning, more often, to templates and automatically generated
text. Overall, this work takes a step toward an empirically grounded
understanding of model fine-tuning and suggests that ecological models and
methods can yield novel scientific insights.