Do Hugging Face ao GitHub: Rastreando a Deriva de Licenças no Ecossistema de IA de Código Aberto
From Hugging Face to GitHub: Tracing License Drift in the Open-Source AI Ecosystem
September 11, 2025
Autores: James Jewitt, Hao Li, Bram Adams, Gopi Krishnan Rajbahadur, Ahmed E. Hassan
cs.AI
Resumo
Conflitos ocultos de licenciamento no ecossistema de IA de código aberto representam sérios riscos legais e éticos, expondo organizações a potenciais litígios e usuários a riscos não divulgados. No entanto, o campo carece de uma compreensão baseada em dados sobre a frequência com que esses conflitos ocorrem, onde se originam e quais comunidades são mais afetadas. Apresentamos a primeira auditoria de ponta a ponta de licenças para conjuntos de dados e modelos no Hugging Face, bem como sua integração subsequente em aplicativos de software de código aberto, abrangendo 364 mil conjuntos de dados, 1,6 milhão de modelos e 140 mil projetos no GitHub. Nossa análise empírica revela uma não conformidade sistêmica na qual 35,5% das transições de modelo para aplicativo eliminam cláusulas restritivas de licença ao relicensear sob termos permissivos. Além disso, prototipamos um mecanismo de regras extensível que codifica quase 200 cláusulas SPDX e específicas de modelos para detectar conflitos de licença, capaz de resolver 86,4% dos conflitos de licença em aplicativos de software. Para apoiar pesquisas futuras, disponibilizamos nosso conjunto de dados e o mecanismo protótipo. Nosso estudo destaca a conformidade de licenças como um desafio crítico de governança na IA de código aberto e fornece tanto os dados quanto as ferramentas necessárias para permitir a conformidade automatizada e consciente de IA em escala.
English
Hidden license conflicts in the open-source AI ecosystem pose serious legal
and ethical risks, exposing organizations to potential litigation and users to
undisclosed risk. However, the field lacks a data-driven understanding of how
frequently these conflicts occur, where they originate, and which communities
are most affected. We present the first end-to-end audit of licenses for
datasets and models on Hugging Face, as well as their downstream integration
into open-source software applications, covering 364 thousand datasets, 1.6
million models, and 140 thousand GitHub projects. Our empirical analysis
reveals systemic non-compliance in which 35.5% of model-to-application
transitions eliminate restrictive license clauses by relicensing under
permissive terms. In addition, we prototype an extensible rule engine that
encodes almost 200 SPDX and model-specific clauses for detecting license
conflicts, which can solve 86.4% of license conflicts in software applications.
To support future research, we release our dataset and the prototype engine.
Our study highlights license compliance as a critical governance challenge in
open-source AI and provides both the data and tools necessary to enable
automated, AI-aware compliance at scale.