Anatomía de un ecosistema de aprendizaje automático: 2 millones de modelos en Hugging Face

Resumen

Muchos han observado que el desarrollo y despliegue de modelos generativos de aprendizaje automático (ML) e inteligencia artificial (IA) siguen un patrón distintivo en el que los modelos preentrenados se adaptan y ajustan para tareas específicas posteriores. Sin embargo, existe un trabajo empírico limitado que examina la estructura de estas interacciones. Este artículo analiza 1.86 millones de modelos en Hugging Face, una plataforma líder de producción colaborativa para el desarrollo de modelos. Nuestro estudio de los árboles genealógicos de modelos —redes que conectan modelos ajustados con sus bases o progenitores— revela linajes de ajuste extensos que varían ampliamente en tamaño y estructura. Utilizando una lente de biología evolutiva para estudiar los modelos de ML, empleamos metadatos de modelos y fichas técnicas para medir la similitud genética y la mutación de rasgos en las familias de modelos. Encontramos que los modelos tienden a exhibir un parecido familiar, lo que significa que sus marcadores genéticos y rasgos muestran más superposición cuando pertenecen a la misma familia de modelos. Sin embargo, estas similitudes se desvían en ciertos aspectos de los modelos estándar de reproducción asexual, porque las mutaciones son rápidas y dirigidas, de modo que dos modelos "hermanos" tienden a exhibir más similitud que los pares progenitor/descendiente. Un análisis más profundo de las derivas direccionales de estas mutaciones revela insights cualitativos sobre el ecosistema abierto de aprendizaje automático: las licencias, de manera contraintuitiva, derivan de licencias restrictivas y comerciales hacia licencias permisivas o copyleft, a menudo violando los términos de las licencias originales; los modelos evolucionan de la compatibilidad multilingüe hacia la compatibilidad exclusiva en inglés; y las fichas técnicas se reducen en longitud y se estandarizan al recurrir, con mayor frecuencia, a plantillas y texto generado automáticamente. En general, este trabajo da un paso hacia una comprensión empíricamente fundamentada del ajuste de modelos y sugiere que los modelos y métodos ecológicos pueden generar insights científicos novedosos.

English

Many have observed that the development and deployment of generative machine learning (ML) and artificial intelligence (AI) models follow a distinctive pattern in which pre-trained models are adapted and fine-tuned for specific downstream tasks. However, there is limited empirical work that examines the structure of these interactions. This paper analyzes 1.86 million models on Hugging Face, a leading peer production platform for model development. Our study of model family trees -- networks that connect fine-tuned models to their base or parent -- reveals sprawling fine-tuning lineages that vary widely in size and structure. Using an evolutionary biology lens to study ML models, we use model metadata and model cards to measure the genetic similarity and mutation of traits over model families. We find that models tend to exhibit a family resemblance, meaning their genetic markers and traits exhibit more overlap when they belong to the same model family. However, these similarities depart in certain ways from standard models of asexual reproduction, because mutations are fast and directed, such that two `sibling' models tend to exhibit more similarity than parent/child pairs. Further analysis of the directional drifts of these mutations reveals qualitative insights about the open machine learning ecosystem: Licenses counter-intuitively drift from restrictive, commercial licenses towards permissive or copyleft licenses, often in violation of upstream license's terms; models evolve from multi-lingual compatibility towards english-only compatibility; and model cards reduce in length and standardize by turning, more often, to templates and automatically generated text. Overall, this work takes a step toward an empirically grounded understanding of model fine-tuning and suggests that ecological models and methods can yield novel scientific insights.

Anatomía de un ecosistema de aprendizaje automático: 2 millones de modelos en Hugging Face

Anatomy of a Machine Learning Ecosystem: 2 Million Models on Hugging Face

Resumen

Support