Proyecto Alejandría: Hacia la Liberación del Conocimiento Científico de las Cargas del Derecho de Autor mediante Modelos de Lenguaje de Gran Escala
Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs
February 26, 2025
Autores: Christoph Schuhmann, Gollam Rabby, Ameya Prabhu, Tawsif Ahmed, Andreas Hochlehnert, Huu Nguyen, Nick Akinci Heidrich, Ludwig Schmidt, Robert Kaczmarczyk, Sören Auer, Jenia Jitsev, Matthias Bethge
cs.AI
Resumen
Los muros de pago, las licencias y las normas de derechos de autor suelen restringir la difusión amplia y la reutilización del conocimiento científico. Adoptamos la postura de que es factible tanto legal como técnicamente extraer el conocimiento científico presente en los textos académicos. Los métodos actuales, como los embeddings de texto, no logran preservar de manera confiable el contenido factual, y la simple paráfrasis puede no ser legalmente sólida. Instamos a la comunidad a adoptar una nueva idea: convertir documentos académicos en Unidades de Conocimiento utilizando LLMs. Estas unidades utilizan datos estructurados que capturan entidades, atributos y relaciones sin contenido estilístico. Proporcionamos evidencia de que las Unidades de Conocimiento: (1) constituyen un marco legalmente defendible para compartir conocimiento a partir de textos de investigación protegidos por derechos de autor, basado en análisis legales de la ley de derechos de autor alemana y la doctrina de Uso Justo de EE. UU., y (2) preservan la mayor parte (~95%) del conocimiento factual del texto original, medido por el rendimiento en preguntas de opción múltiple sobre hechos del texto original protegido por derechos de autor en cuatro dominios de investigación. Liberar el conocimiento científico de los derechos de autor promete beneficios transformadores para la investigación y la educación científica al permitir que los modelos de lenguaje reutilicen hechos importantes de textos protegidos. Para apoyar esto, compartimos herramientas de código abierto para convertir documentos de investigación en Unidades de Conocimiento. En general, nuestro trabajo plantea la viabilidad de democratizar el acceso al conocimiento científico respetando los derechos de autor.
English
Paywalls, licenses and copyright rules often restrict the broad dissemination
and reuse of scientific knowledge. We take the position that it is both legally
and technically feasible to extract the scientific knowledge in scholarly
texts. Current methods, like text embeddings, fail to reliably preserve factual
content, and simple paraphrasing may not be legally sound. We urge the
community to adopt a new idea: convert scholarly documents into Knowledge Units
using LLMs. These units use structured data capturing entities, attributes and
relationships without stylistic content. We provide evidence that Knowledge
Units: (1) form a legally defensible framework for sharing knowledge from
copyrighted research texts, based on legal analyses of German copyright law and
U.S. Fair Use doctrine, and (2) preserve most (~95%) factual knowledge from
original text, measured by MCQ performance on facts from the original
copyrighted text across four research domains. Freeing scientific knowledge
from copyright promises transformative benefits for scientific research and
education by allowing language models to reuse important facts from copyrighted
text. To support this, we share open-source tools for converting research
documents into Knowledge Units. Overall, our work posits the feasibility of
democratizing access to scientific knowledge while respecting copyright.Summary
AI-Generated Summary