ChatPaper.aiChatPaper

Projet Alexandria : Vers la libération des connaissances scientifiques des contraintes du droit d'auteur grâce aux modèles de langage

Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs

February 26, 2025
Auteurs: Christoph Schuhmann, Gollam Rabby, Ameya Prabhu, Tawsif Ahmed, Andreas Hochlehnert, Huu Nguyen, Nick Akinci Heidrich, Ludwig Schmidt, Robert Kaczmarczyk, Sören Auer, Jenia Jitsev, Matthias Bethge
cs.AI

Résumé

Les paywalls, les licences et les règles de droit d'auteur limitent souvent la diffusion large et la réutilisation des connaissances scientifiques. Nous soutenons qu'il est à la fois légalement et techniquement possible d'extraire les connaissances scientifiques contenues dans les textes académiques. Les méthodes actuelles, comme les embeddings de texte, ne parviennent pas à préserver de manière fiable le contenu factuel, et une simple paraphrase peut ne pas être juridiquement valable. Nous encourageons la communauté à adopter une nouvelle idée : convertir les documents académiques en Unités de Connaissance à l'aide de modèles de langage (LLMs). Ces unités utilisent des données structurées capturant les entités, attributs et relations sans contenu stylistique. Nous fournissons des preuves que les Unités de Connaissance : (1) constituent un cadre juridiquement défendable pour partager les connaissances issues de textes de recherche protégés par le droit d'auteur, basé sur des analyses juridiques du droit d'auteur allemand et de la doctrine du Fair Use américain, et (2) préservent la majorité (~95%) des connaissances factuelles du texte original, mesurées par la performance sur des QCM portant sur des faits issus du texte original protégé par le droit d'auteur dans quatre domaines de recherche. Libérer les connaissances scientifiques du droit d'auteur promet des avantages transformateurs pour la recherche et l'éducation scientifiques en permettant aux modèles de langage de réutiliser des faits importants provenant de textes protégés. Pour soutenir cela, nous partageons des outils open-source pour convertir les documents de recherche en Unités de Connaissance. Globalement, notre travail postule la faisabilité de démocratiser l'accès aux connaissances scientifiques tout en respectant le droit d'auteur.
English
Paywalls, licenses and copyright rules often restrict the broad dissemination and reuse of scientific knowledge. We take the position that it is both legally and technically feasible to extract the scientific knowledge in scholarly texts. Current methods, like text embeddings, fail to reliably preserve factual content, and simple paraphrasing may not be legally sound. We urge the community to adopt a new idea: convert scholarly documents into Knowledge Units using LLMs. These units use structured data capturing entities, attributes and relationships without stylistic content. We provide evidence that Knowledge Units: (1) form a legally defensible framework for sharing knowledge from copyrighted research texts, based on legal analyses of German copyright law and U.S. Fair Use doctrine, and (2) preserve most (~95%) factual knowledge from original text, measured by MCQ performance on facts from the original copyrighted text across four research domains. Freeing scientific knowledge from copyright promises transformative benefits for scientific research and education by allowing language models to reuse important facts from copyrighted text. To support this, we share open-source tools for converting research documents into Knowledge Units. Overall, our work posits the feasibility of democratizing access to scientific knowledge while respecting copyright.

Summary

AI-Generated Summary

PDF193February 27, 2025