Naar Richtlijnen voor Beste Praktijken voor Open Datasets voor LLM TrainingTowards Best Practices for Open Datasets for LLM Training
Veel AI-bedrijven trainen hun grote taalmodellen (LLM's) met gegevens zonder toestemming van de auteursrechteigenaars. De toelaatbaarheid hiervan varieert per rechtsgebied: in landen zoals de EU en Japan is dit toegestaan onder bepaalde beperkingen, terwijl de juridische situatie in de Verenigde Staten meer ambigu is. Ongeacht de juridische status hebben zorgen van creatieve producenten geleid tot verschillende spraakmakende auteursrechtzaken, en de dreiging van rechtszaken wordt vaak aangehaald als reden voor de recente trend om de informatie die wordt gedeeld over trainingsdatasets te minimaliseren door zowel bedrijven als belangenbehartigers. Deze trend om de informatie over data te beperken veroorzaakt schade door het belemmeren van transparantie, verantwoording en innovatie in het bredere ecosysteem, doordat onderzoekers, controleurs en getroffen personen de benodigde informatie ontzegd wordt om AI-modellen te begrijpen. Hoewel dit zou kunnen worden verminderd door taalmodellen te trainen op open toegankelijke en publieke domeingegevens, bestaan er op dit moment geen dergelijke modellen (op een betekenisvolle schaal getraind) vanwege de aanzienlijke technische en sociologische uitdagingen bij het samenstellen van het benodigde corpus. Deze uitdagingen omvatten onvolledige en onbetrouwbare metadata, de kosten en complexiteit van het digitaliseren van fysieke archieven, en de diverse set van juridische en technische vaardigheden die nodig zijn om relevantie en verantwoordelijkheid te waarborgen in een snel veranderend landschap. Het streven naar een toekomst waarin AI-systemen kunnen worden getraind op openlijk gelicentieerde gegevens die verantwoord worden samengesteld en beheerd, vereist samenwerking over juridische, technische en beleidsdomeinen, naast investeringen in metadatastandaarden, digitalisering en het bevorderen van een cultuur van openheid.