Da Hugging Face a GitHub: Tracciamento della deriva delle licenze nell'ecosistema dell'IA open-source
From Hugging Face to GitHub: Tracing License Drift in the Open-Source AI Ecosystem
September 11, 2025
Autori: James Jewitt, Hao Li, Bram Adams, Gopi Krishnan Rajbahadur, Ahmed E. Hassan
cs.AI
Abstract
I conflitti di licenza nascosti nell'ecosistema open-source dell'IA rappresentano un serio rischio legale ed etico, esponendo le organizzazioni a potenziali contenziosi e gli utenti a rischi non dichiarati. Tuttavia, il campo manca di una comprensione basata sui dati di quanto frequentemente questi conflitti si verifichino, da dove originino e quali comunità siano maggiormente colpite. Presentiamo la prima verifica end-to-end delle licenze per dataset e modelli su Hugging Face, nonché della loro integrazione downstream in applicazioni software open-source, coprendo 364 mila dataset, 1,6 milioni di modelli e 140 mila progetti GitHub. La nostra analisi empirica rivela una sistematica mancata conformità in cui il 35,5% delle transizioni da modello ad applicazione elimina clausole di licenza restrittive rilicenziando con termini permissivi. Inoltre, prototipiamo un motore di regole estensibile che codifica quasi 200 clausole SPDX e specifiche per modelli per rilevare conflitti di licenza, in grado di risolvere l'86,4% dei conflitti di licenza nelle applicazioni software. Per supportare la ricerca futura, rilasciamo il nostro dataset e il motore prototipo. Il nostro studio evidenzia la conformità alle licenze come una sfida di governance critica nell'IA open-source e fornisce sia i dati che gli strumenti necessari per abilitare una conformità automatizzata e consapevole dell'IA su larga scala.
English
Hidden license conflicts in the open-source AI ecosystem pose serious legal
and ethical risks, exposing organizations to potential litigation and users to
undisclosed risk. However, the field lacks a data-driven understanding of how
frequently these conflicts occur, where they originate, and which communities
are most affected. We present the first end-to-end audit of licenses for
datasets and models on Hugging Face, as well as their downstream integration
into open-source software applications, covering 364 thousand datasets, 1.6
million models, and 140 thousand GitHub projects. Our empirical analysis
reveals systemic non-compliance in which 35.5% of model-to-application
transitions eliminate restrictive license clauses by relicensing under
permissive terms. In addition, we prototype an extensible rule engine that
encodes almost 200 SPDX and model-specific clauses for detecting license
conflicts, which can solve 86.4% of license conflicts in software applications.
To support future research, we release our dataset and the prototype engine.
Our study highlights license compliance as a critical governance challenge in
open-source AI and provides both the data and tools necessary to enable
automated, AI-aware compliance at scale.