LLM 훈련용 오픈 데이터셋을 위한 모범 사례로의 진화Towards Best Practices for Open Datasets for LLM Training
많은 AI 기업들이 저작권 소유자의 허락 없이 대용량 언어 모델 (LLM)을 데이터로 학습시키고 있습니다. 이러한 행위의 허용 여부는 관할 지역에 따라 다릅니다: EU나 일본과 같은 국가에서는 일부 제한 하에 허용되지만, 미국에서는 법적 상황이 더 모호합니다. 법적 지위와는 무관하게, 창작물 제작자들의 우려로 인해 여러 주목할만한 저작권 소송이 발생했으며, 소송 위협은 최근 데이터셋 훈련 정보를 제한하는 추세로 이어지고 있습니다. 기업 및 공익 당사자들 모두가 훈련 데이터셋에 대한 정보를 최소화하려는 이 추세는 투명성, 책임성 및 혁신을 방해하여 넓은 생태계에서 연구자, 감사자 및 영향을 받는 개인들이 AI 모델을 이해하기 위해 필요한 정보에 접근할 수 없도록 합니다. 이 문제는 공개 접근 및 공공 도메인 데이터로 언어 모델을 훈련시킴으로써 완화될 수 있습니다. 그러나 현재로서는, 필요한 말뭉치를 구성하는 데 상당한 기술적 및 사회학적 도전이 있어 의미 있는 규모로 훈련된 모델이 없습니다. 이러한 도전은 불완전하고 신뢰할 수 없는 메타데이터, 물리적 기록을 디지털화하는 비용과 복잡성, 그리고 빠르게 변화하는 환경에서 관련성과 책임성을 보장하기 위해 필요한 다양한 법적 및 기술적 기술 세트를 포함합니다. AI 시스템이 책임 있게 선별되고 통제되는 공개 라이선스 데이터로 훈련될 수 있는 미래를 향해 나아가기 위해서는 법적, 기술 및 정책 분야 간의 협력이 필요하며, 메타데이터 표준, 디지털화 및 개방 문화 육성에 대한 투자가 필요합니다.