ChatPaper.aiChatPaper

Project Alexandria: Naar het Vrijmaken van Wetenschappelijke Kennis van Copyrightbeperkingen via LLM's

Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs

February 26, 2025
Auteurs: Christoph Schuhmann, Gollam Rabby, Ameya Prabhu, Tawsif Ahmed, Andreas Hochlehnert, Huu Nguyen, Nick Akinci Heidrich, Ludwig Schmidt, Robert Kaczmarczyk, Sören Auer, Jenia Jitsev, Matthias Bethge
cs.AI

Samenvatting

Betaalmuren, licenties en auteursrechtenregels beperken vaak de brede verspreiding en hergebruik van wetenschappelijke kennis. Wij zijn van mening dat het zowel juridisch als technisch haalbaar is om de wetenschappelijke kennis in wetenschappelijke teksten te extraheren. Huidige methoden, zoals tekst-embeddings, slagen er niet in om feitelijke inhoud betrouwbaar te behouden, en eenvoudig parafraseren is mogelijk niet juridisch solide. We dringen er bij de gemeenschap op aan om een nieuw idee te omarmen: het omzetten van wetenschappelijke documenten in Kenniseenheden met behulp van LLM's. Deze eenheden maken gebruik van gestructureerde gegevens die entiteiten, attributen en relaties vastleggen zonder stilistische inhoud. We leveren bewijs dat Kenniseenheden: (1) een juridisch verdedigbaar kader vormen voor het delen van kennis uit auteursrechtelijk beschermde onderzoeksteksten, gebaseerd op juridische analyses van het Duitse auteursrecht en de Amerikaanse Fair Use-doctrine, en (2) het merendeel (~95%) van de feitelijke kennis uit de oorspronkelijke tekst behouden, gemeten aan de hand van meerkeuzevragen over feiten uit de oorspronkelijke auteursrechtelijk beschermde tekst over vier onderzoeksgebieden. Het vrijgeven van wetenschappelijke kennis van auteursrechten belooft transformerende voordelen voor wetenschappelijk onderzoek en onderwijs door taalmodellen toe te staan belangrijke feiten uit auteursrechtelijk beschermd materiaal opnieuw te gebruiken. Om dit te ondersteunen, delen we open-source tools voor het omzetten van onderzoeksdocumenten in Kenniseenheden. Over het algemeen stelt ons werk de haalbaarheid voor van het democratiseren van toegang tot wetenschappelijke kennis met inachtneming van auteursrechten.
English
Paywalls, licenses and copyright rules often restrict the broad dissemination and reuse of scientific knowledge. We take the position that it is both legally and technically feasible to extract the scientific knowledge in scholarly texts. Current methods, like text embeddings, fail to reliably preserve factual content, and simple paraphrasing may not be legally sound. We urge the community to adopt a new idea: convert scholarly documents into Knowledge Units using LLMs. These units use structured data capturing entities, attributes and relationships without stylistic content. We provide evidence that Knowledge Units: (1) form a legally defensible framework for sharing knowledge from copyrighted research texts, based on legal analyses of German copyright law and U.S. Fair Use doctrine, and (2) preserve most (~95%) factual knowledge from original text, measured by MCQ performance on facts from the original copyrighted text across four research domains. Freeing scientific knowledge from copyright promises transformative benefits for scientific research and education by allowing language models to reuse important facts from copyrighted text. To support this, we share open-source tools for converting research documents into Knowledge Units. Overall, our work posits the feasibility of democratizing access to scientific knowledge while respecting copyright.
PDF193February 27, 2025