Progetto Alessandria: Verso la Liberazione della Conoscenza Scientifica dai Vincoli del Copyright attraverso i Modelli Linguistici di Grande Dimensione
Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs
February 26, 2025
Autori: Christoph Schuhmann, Gollam Rabby, Ameya Prabhu, Tawsif Ahmed, Andreas Hochlehnert, Huu Nguyen, Nick Akinci Heidrich, Ludwig Schmidt, Robert Kaczmarczyk, Sören Auer, Jenia Jitsev, Matthias Bethge
cs.AI
Abstract
Paywall, licenze e norme sul copyright spesso limitano la diffusione e il riutilizzo su larga scala della conoscenza scientifica. Sosteniamo che sia legalmente che tecnicamente fattibile estrarre la conoscenza scientifica dai testi accademici. I metodi attuali, come gli embedding di testo, non preservano in modo affidabile il contenuto fattuale, e una semplice parafrasi potrebbe non essere legalmente valida. Esortiamo la comunità ad adottare una nuova idea: convertire i documenti accademici in Unità di Conoscenza utilizzando LLM. Queste unità utilizzano dati strutturati che catturano entità, attributi e relazioni senza contenuti stilistici. Forniamo prove che le Unità di Conoscenza: (1) costituiscono un quadro legalmente difendibile per condividere la conoscenza da testi di ricerca protetti da copyright, basato su analisi legali della legge tedesca sul copyright e della dottrina del Fair Use statunitense, e (2) preservano la maggior parte (~95%) della conoscenza fattuale del testo originale, misurata dalle prestazioni su domande a scelta multipla relative ai fatti del testo originale protetto da copyright in quattro ambiti di ricerca. Liberare la conoscenza scientifica dal copyright promette benefici trasformativi per la ricerca e l'istruzione scientifica, consentendo ai modelli linguistici di riutilizzare fatti importanti da testi protetti da copyright. Per supportare ciò, condividiamo strumenti open-source per convertire documenti di ricerca in Unità di Conoscenza. Nel complesso, il nostro lavoro sostiene la fattibilità di democratizzare l'accesso alla conoscenza scientifica rispettando il copyright.
English
Paywalls, licenses and copyright rules often restrict the broad dissemination
and reuse of scientific knowledge. We take the position that it is both legally
and technically feasible to extract the scientific knowledge in scholarly
texts. Current methods, like text embeddings, fail to reliably preserve factual
content, and simple paraphrasing may not be legally sound. We urge the
community to adopt a new idea: convert scholarly documents into Knowledge Units
using LLMs. These units use structured data capturing entities, attributes and
relationships without stylistic content. We provide evidence that Knowledge
Units: (1) form a legally defensible framework for sharing knowledge from
copyrighted research texts, based on legal analyses of German copyright law and
U.S. Fair Use doctrine, and (2) preserve most (~95%) factual knowledge from
original text, measured by MCQ performance on facts from the original
copyrighted text across four research domains. Freeing scientific knowledge
from copyright promises transformative benefits for scientific research and
education by allowing language models to reuse important facts from copyrighted
text. To support this, we share open-source tools for converting research
documents into Knowledge Units. Overall, our work posits the feasibility of
democratizing access to scientific knowledge while respecting copyright.Summary
AI-Generated Summary