De Hugging Face a GitHub: Rastreando la deriva de licencias en el ecosistema de IA de código abierto
From Hugging Face to GitHub: Tracing License Drift in the Open-Source AI Ecosystem
September 11, 2025
Autores: James Jewitt, Hao Li, Bram Adams, Gopi Krishnan Rajbahadur, Ahmed E. Hassan
cs.AI
Resumen
Los conflictos de licencias ocultos en el ecosistema de IA de código abierto representan riesgos legales y éticos graves, exponiendo a las organizaciones a posibles litigios y a los usuarios a riesgos no revelados. Sin embargo, el campo carece de una comprensión basada en datos sobre la frecuencia con la que ocurren estos conflictos, su origen y qué comunidades son las más afectadas. Presentamos la primera auditoría integral de licencias para conjuntos de datos y modelos en Hugging Face, así como su integración descendente en aplicaciones de software de código abierto, cubriendo 364 mil conjuntos de datos, 1.6 millones de modelos y 140 mil proyectos en GitHub. Nuestro análisis empírico revela un incumplimiento sistémico en el que el 35.5% de las transiciones de modelo a aplicación eliminan cláusulas restrictivas de licencia al relicenciar bajo términos permisivos. Además, prototipamos un motor de reglas extensible que codifica casi 200 cláusulas específicas de SPDX y modelos para detectar conflictos de licencias, capaz de resolver el 86.4% de los conflictos de licencias en aplicaciones de software. Para apoyar investigaciones futuras, publicamos nuestro conjunto de datos y el motor prototipo. Nuestro estudio destaca el cumplimiento de licencias como un desafío crítico de gobernanza en la IA de código abierto y proporciona tanto los datos como las herramientas necesarias para habilitar el cumplimiento automatizado y consciente de la IA a gran escala.
English
Hidden license conflicts in the open-source AI ecosystem pose serious legal
and ethical risks, exposing organizations to potential litigation and users to
undisclosed risk. However, the field lacks a data-driven understanding of how
frequently these conflicts occur, where they originate, and which communities
are most affected. We present the first end-to-end audit of licenses for
datasets and models on Hugging Face, as well as their downstream integration
into open-source software applications, covering 364 thousand datasets, 1.6
million models, and 140 thousand GitHub projects. Our empirical analysis
reveals systemic non-compliance in which 35.5% of model-to-application
transitions eliminate restrictive license clauses by relicensing under
permissive terms. In addition, we prototype an extensible rule engine that
encodes almost 200 SPDX and model-specific clauses for detecting license
conflicts, which can solve 86.4% of license conflicts in software applications.
To support future research, we release our dataset and the prototype engine.
Our study highlights license compliance as a critical governance challenge in
open-source AI and provides both the data and tools necessary to enable
automated, AI-aware compliance at scale.