От Hugging Face до GitHub: отслеживание изменений лицензий в экосистеме открытого ИИ
From Hugging Face to GitHub: Tracing License Drift in the Open-Source AI Ecosystem
September 11, 2025
Авторы: James Jewitt, Hao Li, Bram Adams, Gopi Krishnan Rajbahadur, Ahmed E. Hassan
cs.AI
Аннотация
Скрытые конфликты лицензий в экосистеме открытого ИИ представляют серьезные юридические и этические риски, подвергая организации потенциальным судебным разбирательствам, а пользователей — нераскрытым рискам. Однако в этой области отсутствует основанное на данных понимание того, насколько часто такие конфликты возникают, где они берут начало и какие сообщества страдают больше всего. Мы представляем первый сквозной аудит лицензий для наборов данных и моделей на платформе Hugging Face, а также их последующей интеграции в приложения с открытым исходным кодом, охватывающий 364 тысячи наборов данных, 1,6 миллиона моделей и 140 тысяч проектов на GitHub. Наш эмпирический анализ выявляет системное несоблюдение лицензий, при котором 35,5% переходов от моделей к приложениям устраняют ограничительные условия лицензий путем перелицензирования на более разрешительных условиях. Кроме того, мы разрабатываем прототип расширяемого механизма правил, который кодирует почти 200 условий SPDX и специфичных для моделей положений для выявления конфликтов лицензий, способный решить 86,4% таких конфликтов в программных приложениях. Для поддержки будущих исследований мы публикуем наш набор данных и прототип механизма. Наше исследование подчеркивает соблюдение лицензий как ключевую задачу управления в открытом ИИ и предоставляет как данные, так и инструменты, необходимые для автоматизированного, масштабируемого контроля соответствия с учетом особенностей ИИ.
English
Hidden license conflicts in the open-source AI ecosystem pose serious legal
and ethical risks, exposing organizations to potential litigation and users to
undisclosed risk. However, the field lacks a data-driven understanding of how
frequently these conflicts occur, where they originate, and which communities
are most affected. We present the first end-to-end audit of licenses for
datasets and models on Hugging Face, as well as their downstream integration
into open-source software applications, covering 364 thousand datasets, 1.6
million models, and 140 thousand GitHub projects. Our empirical analysis
reveals systemic non-compliance in which 35.5% of model-to-application
transitions eliminate restrictive license clauses by relicensing under
permissive terms. In addition, we prototype an extensible rule engine that
encodes almost 200 SPDX and model-specific clauses for detecting license
conflicts, which can solve 86.4% of license conflicts in software applications.
To support future research, we release our dataset and the prototype engine.
Our study highlights license compliance as a critical governance challenge in
open-source AI and provides both the data and tools necessary to enable
automated, AI-aware compliance at scale.