Van Hugging Face naar GitHub: Het traceren van licentiedrift in het open-source AI-ecosysteem
From Hugging Face to GitHub: Tracing License Drift in the Open-Source AI Ecosystem
September 11, 2025
Auteurs: James Jewitt, Hao Li, Bram Adams, Gopi Krishnan Rajbahadur, Ahmed E. Hassan
cs.AI
Samenvatting
Verborgen licentieconflicten in het open-source AI-ecosysteem vormen ernstige juridische en ethische risico's, waardoor organisaties blootstaan aan mogelijke rechtszaken en gebruikers aan onbekende risico's. Het veld ontbeert echter een data-gedreven inzicht in hoe vaak deze conflicten voorkomen, waar ze ontstaan en welke gemeenschappen het meest worden getroffen. Wij presenteren de eerste end-to-end audit van licenties voor datasets en modellen op Hugging Face, evenals hun downstream-integratie in open-source softwaretoepassingen, waarbij 364 duizend datasets, 1,6 miljoen modellen en 140 duizend GitHub-projecten worden bestreken. Onze empirische analyse onthult systemische niet-naleving, waarbij 35,5% van de model-naar-toepassing-overgangen beperkende licentieclausules elimineert door herlicentiëring onder permissieve voorwaarden. Daarnaast prototypen we een uitbreidbare regelengine die bijna 200 SPDX- en modelspecifieke clausules codeert voor het detecteren van licentieconflicten, die 86,4% van de licentieconflicten in softwaretoepassingen kan oplossen. Om toekomstig onderzoek te ondersteunen, publiceren we onze dataset en de prototype-engine. Onze studie benadrukt licentienaleving als een kritieke governance-uitdaging in open-source AI en biedt zowel de data als de tools die nodig zijn om geautomatiseerde, AI-bewuste naleving op grote schaal mogelijk te maken.
English
Hidden license conflicts in the open-source AI ecosystem pose serious legal
and ethical risks, exposing organizations to potential litigation and users to
undisclosed risk. However, the field lacks a data-driven understanding of how
frequently these conflicts occur, where they originate, and which communities
are most affected. We present the first end-to-end audit of licenses for
datasets and models on Hugging Face, as well as their downstream integration
into open-source software applications, covering 364 thousand datasets, 1.6
million models, and 140 thousand GitHub projects. Our empirical analysis
reveals systemic non-compliance in which 35.5% of model-to-application
transitions eliminate restrictive license clauses by relicensing under
permissive terms. In addition, we prototype an extensible rule engine that
encodes almost 200 SPDX and model-specific clauses for detecting license
conflicts, which can solve 86.4% of license conflicts in software applications.
To support future research, we release our dataset and the prototype engine.
Our study highlights license compliance as a critical governance challenge in
open-source AI and provides both the data and tools necessary to enable
automated, AI-aware compliance at scale.