Anatomia de um Ecossistema de Aprendizado de Máquina: 2 Milhões de Modelos no Hugging Face
Anatomy of a Machine Learning Ecosystem: 2 Million Models on Hugging Face
August 9, 2025
Autores: Benjamin Laufer, Hamidah Oderinwale, Jon Kleinberg
cs.AI
Resumo
Muitos observaram que o desenvolvimento e a implantação de modelos generativos de aprendizado de máquina (ML) e inteligência artificial (IA) seguem um padrão distinto, no qual modelos pré-treinados são adaptados e ajustados para tarefas específicas subsequentes. No entanto, há um número limitado de trabalhos empíricos que examinam a estrutura dessas interações. Este artigo analisa 1,86 milhão de modelos no Hugging Face, uma plataforma líder de produção colaborativa para o desenvolvimento de modelos. Nosso estudo das árvores genealógicas de modelos — redes que conectam modelos ajustados aos seus modelos base ou "pais" — revela linhagens extensas de ajuste fino que variam amplamente em tamanho e estrutura. Usando uma lente da biologia evolutiva para estudar modelos de ML, utilizamos metadados de modelos e fichas técnicas (model cards) para medir a similaridade genética e a mutação de características ao longo das famílias de modelos. Descobrimos que os modelos tendem a exibir uma semelhança familiar, ou seja, seus marcadores genéticos e características exibem maior sobreposição quando pertencem à mesma família de modelos. No entanto, essas semelhanças divergem de certas formas dos modelos padrão de reprodução assexuada, porque as mutações são rápidas e direcionadas, de modo que dois modelos "irmãos" tendem a exibir mais similaridade do que pares de modelos pai/filho. Uma análise mais aprofundada dos desvios direcionais dessas mutações revela insights qualitativos sobre o ecossistema aberto de aprendizado de máquina: licenças, de forma contra-intuitiva, mudam de licenças restritivas e comerciais para licenças permissivas ou copyleft, muitas vezes violando os termos das licenças originais; os modelos evoluem da compatibilidade multilíngue para a compatibilidade apenas em inglês; e as fichas técnicas dos modelos reduzem em comprimento e se padronizam, recorrendo mais frequentemente a modelos e textos gerados automaticamente. No geral, este trabalho dá um passo em direção a uma compreensão empiricamente fundamentada do ajuste fino de modelos e sugere que modelos e métodos ecológicos podem gerar insights científicos inovadores.
English
Many have observed that the development and deployment of generative machine
learning (ML) and artificial intelligence (AI) models follow a distinctive
pattern in which pre-trained models are adapted and fine-tuned for specific
downstream tasks. However, there is limited empirical work that examines the
structure of these interactions. This paper analyzes 1.86 million models on
Hugging Face, a leading peer production platform for model development. Our
study of model family trees -- networks that connect fine-tuned models to their
base or parent -- reveals sprawling fine-tuning lineages that vary widely in
size and structure. Using an evolutionary biology lens to study ML models, we
use model metadata and model cards to measure the genetic similarity and
mutation of traits over model families. We find that models tend to exhibit a
family resemblance, meaning their genetic markers and traits exhibit more
overlap when they belong to the same model family. However, these similarities
depart in certain ways from standard models of asexual reproduction, because
mutations are fast and directed, such that two `sibling' models tend to exhibit
more similarity than parent/child pairs. Further analysis of the directional
drifts of these mutations reveals qualitative insights about the open machine
learning ecosystem: Licenses counter-intuitively drift from restrictive,
commercial licenses towards permissive or copyleft licenses, often in violation
of upstream license's terms; models evolve from multi-lingual compatibility
towards english-only compatibility; and model cards reduce in length and
standardize by turning, more often, to templates and automatically generated
text. Overall, this work takes a step toward an empirically grounded
understanding of model fine-tuning and suggests that ecological models and
methods can yield novel scientific insights.