In this paper, we present Project Alexandria, an initiative aimed at leveraging large language models (LLMs) to make scientific knowledge more accessible by circumventing copyright restrictions. We explore the technical and ethical challenges involved in using LLMs to extract and synthesize information from copyrighted scientific literature. Our approach involves training LLMs on open-access scientific datasets and then fine-tuning them to generate summaries and insights that capture the essence of copyrighted works without directly reproducing them. We discuss the potential of this method to democratize access to scientific knowledge while respecting intellectual property rights. Additionally, we examine the implications of our work for the future of scientific publishing and the role of AI in knowledge dissemination.Project Alexandria: Auf dem Weg zur Befreiung wissenschaftlichen Wissens von Urheberrechtsbeschränkungen durch LLMs In diesem Artikel stellen wir Project Alexandria vor, eine Initiative, die darauf abzielt, große Sprachmodelle (LLMs) zu nutzen, um wissenschaftliches Wissen durch die Umgehung von Urheberrechtsbeschränkungen zugänglicher zu machen. Wir untersuchen die technischen und ethischen Herausforderungen, die mit der Verwendung von LLMs zur Extraktion und Synthese von Informationen aus urheberrechtlich geschützter wissenschaftlicher Literatur verbunden sind. Unser Ansatz beinhaltet das Training von LLMs anhand von Open-Access-wissenschaftlichen Datensätzen und deren anschließende Feinabstimmung, um Zusammenfassungen und Erkenntnisse zu generieren, die den Kern urheberrechtlich geschützter Werke erfassen, ohne diese direkt zu reproduzieren. Wir diskutieren das Potenzial dieser Methode, den Zugang zu wissenschaftlichem Wissen zu demokratisieren, während gleichzeitig die Rechte des geistigen Eigentums respektiert werden. Darüber hinaus untersuchen wir die Auswirkungen unserer Arbeit auf die Zukunft des wissenschaftlichen Publizierens und die Rolle der KI bei der Wissensverbreitung.
Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs
February 26, 2025
Autoren: Christoph Schuhmann, Gollam Rabby, Ameya Prabhu, Tawsif Ahmed, Andreas Hochlehnert, Huu Nguyen, Nick Akinci Heidrich, Ludwig Schmidt, Robert Kaczmarczyk, Sören Auer, Jenia Jitsev, Matthias Bethge
cs.AI
Zusammenfassung
Paywalls, Lizenzen und Urheberrechtsregeln schränken oft die breite Verbreitung und Wiederverwendung wissenschaftlichen Wissens ein. Wir vertreten die Position, dass es sowohl rechtlich als auch technisch machbar ist, das wissenschaftliche Wissen in Fachtexten zu extrahieren. Aktuelle Methoden wie Text-Embeddings scheitern daran, faktische Inhalte zuverlässig zu bewahren, und einfaches Paraphrasieren ist möglicherweise nicht rechtlich zulässig. Wir fordern die Gemeinschaft auf, eine neue Idee zu übernehmen: die Konvertierung wissenschaftlicher Dokumente in Wissenseinheiten mithilfe von LLMs. Diese Einheiten verwenden strukturierte Daten, die Entitäten, Attribute und Beziehungen erfassen, ohne stilistische Inhalte. Wir liefern Belege dafür, dass Wissenseinheiten: (1) einen rechtlich vertretbaren Rahmen für die Weitergabe von Wissen aus urheberrechtlich geschützten Forschungstexten bilden, basierend auf rechtlichen Analysen des deutschen Urheberrechts und der US-amerikanischen Fair-Use-Doktrin, und (2) den Großteil (~95 %) des faktischen Wissens aus dem Originaltext bewahren, gemessen an der Leistung bei Multiple-Choice-Fragen zu Fakten aus dem urheberrechtlich geschützten Originaltext in vier Forschungsbereichen. Die Befreiung wissenschaftlichen Wissens aus dem Urheberrecht verspricht transformative Vorteile für die wissenschaftliche Forschung und Bildung, indem es Sprachmodellen ermöglicht, wichtige Fakten aus urheberrechtlich geschützten Texten wiederzuverwenden. Zur Unterstützung stellen wir Open-Source-Tools zur Konvertierung von Forschungsdokumenten in Wissenseinheiten bereit. Insgesamt zeigt unsere Arbeit die Machbarkeit auf, den Zugang zu wissenschaftlichem Wissen zu demokratisieren, während das Urheberrecht respektiert wird.
English
Paywalls, licenses and copyright rules often restrict the broad dissemination
and reuse of scientific knowledge. We take the position that it is both legally
and technically feasible to extract the scientific knowledge in scholarly
texts. Current methods, like text embeddings, fail to reliably preserve factual
content, and simple paraphrasing may not be legally sound. We urge the
community to adopt a new idea: convert scholarly documents into Knowledge Units
using LLMs. These units use structured data capturing entities, attributes and
relationships without stylistic content. We provide evidence that Knowledge
Units: (1) form a legally defensible framework for sharing knowledge from
copyrighted research texts, based on legal analyses of German copyright law and
U.S. Fair Use doctrine, and (2) preserve most (~95%) factual knowledge from
original text, measured by MCQ performance on facts from the original
copyrighted text across four research domains. Freeing scientific knowledge
from copyright promises transformative benefits for scientific research and
education by allowing language models to reuse important facts from copyrighted
text. To support this, we share open-source tools for converting research
documents into Knowledge Units. Overall, our work posits the feasibility of
democratizing access to scientific knowledge while respecting copyright.Summary
AI-Generated Summary