CHIMERA : Base de connaissances sur la recombinaison d'idées dans la littérature scientifique
CHIMERA: A Knowledge Base of Idea Recombination in Scientific Literature
May 27, 2025
Auteurs: Noy Sternlicht, Tom Hope
cs.AI
Résumé
Une caractéristique essentielle de l'innovation humaine réside dans le processus de recombinaison – la création d'idées originales en intégrant des éléments de mécanismes et de concepts existants. Dans ce travail, nous exploitons automatiquement la littérature scientifique pour construire CHIMERA : une base de connaissances (KB) à grande échelle d'exemples de recombinaison. CHIMERA peut être utilisée pour explorer empiriquement et à grande échelle comment les scientifiques recombinent des concepts et s'inspirent de différents domaines, ou pour entraîner des modèles d'apprentissage supervisé capables de prédire de nouvelles directions créatives transdisciplinaires. Pour construire cette base de connaissances, nous présentons une nouvelle tâche d'extraction d'information visant à extraire des recombinaisons à partir des résumés d'articles scientifiques, collectons un corpus de haute qualité composé de centaines de résumés annotés manuellement, et l'utilisons pour entraîner un modèle d'extraction basé sur un LLM (modèle de langage de grande taille). Ce modèle est appliqué à un vaste corpus d'articles dans le domaine de l'IA, produisant une base de connaissances de plus de 28 000 exemples de recombinaison. Nous analysons CHIMERA pour explorer les propriétés de la recombinaison dans différents sous-domaines de l'IA. Enfin, nous entraînons un modèle de génération d'hypothèses scientifiques utilisant cette base de connaissances, qui prédit de nouvelles directions de recombinaison que les chercheurs du monde réel trouvent inspirantes. Nos données et notre code sont disponibles à l'adresse suivante : https://github.cs.huji.ac.il/tomhope-lab/CHIMERA.
English
A hallmark of human innovation is the process of recombination -- creating
original ideas by integrating elements of existing mechanisms and concepts. In
this work, we automatically mine the scientific literature and build CHIMERA: a
large-scale knowledge base (KB) of recombination examples. CHIMERA can be used
to empirically explore at scale how scientists recombine concepts and take
inspiration from different areas, or to train supervised machine learning
models that learn to predict new creative cross-domain directions. To build
this KB, we present a novel information extraction task of extracting
recombination from scientific paper abstracts, collect a high-quality corpus of
hundreds of manually annotated abstracts, and use it to train an LLM-based
extraction model. The model is applied to a large corpus of papers in the AI
domain, yielding a KB of over 28K recombination examples. We analyze CHIMERA to
explore the properties of recombination in different subareas of AI. Finally,
we train a scientific hypothesis generation model using the KB, which predicts
new recombination directions that real-world researchers find inspiring. Our
data and code are available at https://github.cs.huji.ac.il/tomhope-lab/CHIMERASummary
AI-Generated Summary