허깅 페이스에서 깃허브까지: 오픈소스 AI 생태계 내 라이선스 변화 추적
From Hugging Face to GitHub: Tracing License Drift in the Open-Source AI Ecosystem
September 11, 2025
저자: James Jewitt, Hao Li, Bram Adams, Gopi Krishnan Rajbahadur, Ahmed E. Hassan
cs.AI
초록
오픈소스 AI 생태계 내에서 숨겨진 라이선스 충돌은 심각한 법적 및 윤리적 위험을 초래하며, 조직은 잠재적인 소송에 노출되고 사용자는 공개되지 않은 위험에 직면할 수 있습니다. 그러나 이러한 충돌이 얼마나 자주 발생하는지, 어디에서 기인하는지, 그리고 어떤 커뮤니티가 가장 큰 영향을 받는지에 대한 데이터 기반 이해가 부족한 실정입니다. 본 연구에서는 Hugging Face의 데이터셋과 모델, 그리고 이를 오픈소스 소프트웨어 애플리케이션에 통합한 사례를 포함하여 총 36만 4천 개의 데이터셋, 160만 개의 모델, 그리고 14만 개의 GitHub 프로젝트를 대상으로 최초의 종단 간 라이선스 감사를 수행했습니다. 실증 분석 결과, 모델에서 애플리케이션으로의 전환 과정에서 35.5%가 제한적인 라이선스 조항을 허용적 조건으로 재라이선스하여 제거하는 시스템적 비준수 사례가 발견되었습니다. 또한, 거의 200개의 SPDX 및 모델 특정 조항을 인코딩하여 라이선스 충돌을 탐지할 수 있는 확장 가능한 규칙 엔진 프로토타입을 개발했으며, 이는 소프트웨어 애플리케이션에서 발생하는 라이선스 충돌의 86.4%를 해결할 수 있습니다. 향후 연구를 지원하기 위해 본 연구의 데이터셋과 프로토타입 엔진을 공개합니다. 본 연구는 오픈소스 AI에서 라이선스 준수가 중요한 거버넌스 과제임을 강조하며, 자동화된 AI 인식 준수를 대규모로 가능하게 하는 데이터와 도구를 제공합니다.
English
Hidden license conflicts in the open-source AI ecosystem pose serious legal
and ethical risks, exposing organizations to potential litigation and users to
undisclosed risk. However, the field lacks a data-driven understanding of how
frequently these conflicts occur, where they originate, and which communities
are most affected. We present the first end-to-end audit of licenses for
datasets and models on Hugging Face, as well as their downstream integration
into open-source software applications, covering 364 thousand datasets, 1.6
million models, and 140 thousand GitHub projects. Our empirical analysis
reveals systemic non-compliance in which 35.5% of model-to-application
transitions eliminate restrictive license clauses by relicensing under
permissive terms. In addition, we prototype an extensible rule engine that
encodes almost 200 SPDX and model-specific clauses for detecting license
conflicts, which can solve 86.4% of license conflicts in software applications.
To support future research, we release our dataset and the prototype engine.
Our study highlights license compliance as a critical governance challenge in
open-source AI and provides both the data and tools necessary to enable
automated, AI-aware compliance at scale.