ChatPaper.aiChatPaper

CHIMERA: Una Base de Conocimiento sobre Recombinación de Ideas en la Literatura Científica

CHIMERA: A Knowledge Base of Idea Recombination in Scientific Literature

May 27, 2025
Autores: Noy Sternlicht, Tom Hope
cs.AI

Resumen

Un sello distintivo de la innovación humana es el proceso de recombinación: crear ideas originales integrando elementos de mecanismos y conceptos existentes. En este trabajo, extraemos automáticamente la literatura científica y construimos CHIMERA: una base de conocimiento (KB) a gran escala de ejemplos de recombinación. CHIMERA puede utilizarse para explorar empíricamente a gran escala cómo los científicos recombinan conceptos y se inspiran en diferentes áreas, o para entrenar modelos de aprendizaje supervisado que aprenden a predecir nuevas direcciones creativas interdisciplinarias. Para construir esta KB, presentamos una novedosa tarea de extracción de información que consiste en identificar recombinaciones en resúmenes de artículos científicos, recopilamos un corpus de alta calidad con cientos de resúmenes anotados manualmente, y lo utilizamos para entrenar un modelo de extracción basado en LLM. El modelo se aplica a un gran corpus de artículos en el dominio de la IA, obteniendo una KB con más de 28K ejemplos de recombinación. Analizamos CHIMERA para explorar las propiedades de la recombinación en diferentes subáreas de la IA. Finalmente, entrenamos un modelo de generación de hipótesis científicas utilizando la KB, el cual predice nuevas direcciones de recombinación que los investigadores del mundo real encuentran inspiradoras. Nuestros datos y código están disponibles en https://github.cs.huji.ac.il/tomhope-lab/CHIMERA.
English
A hallmark of human innovation is the process of recombination -- creating original ideas by integrating elements of existing mechanisms and concepts. In this work, we automatically mine the scientific literature and build CHIMERA: a large-scale knowledge base (KB) of recombination examples. CHIMERA can be used to empirically explore at scale how scientists recombine concepts and take inspiration from different areas, or to train supervised machine learning models that learn to predict new creative cross-domain directions. To build this KB, we present a novel information extraction task of extracting recombination from scientific paper abstracts, collect a high-quality corpus of hundreds of manually annotated abstracts, and use it to train an LLM-based extraction model. The model is applied to a large corpus of papers in the AI domain, yielding a KB of over 28K recombination examples. We analyze CHIMERA to explore the properties of recombination in different subareas of AI. Finally, we train a scientific hypothesis generation model using the KB, which predicts new recombination directions that real-world researchers find inspiring. Our data and code are available at https://github.cs.huji.ac.il/tomhope-lab/CHIMERA

Summary

AI-Generated Summary

PDF143May 29, 2025