ChatPaper.aiChatPaper

CHIMERA: Een Kennisbank voor Ideeënrecombinatie in Wetenschappelijke Literatuur

CHIMERA: A Knowledge Base of Idea Recombination in Scientific Literature

May 27, 2025
Auteurs: Noy Sternlicht, Tom Hope
cs.AI

Samenvatting

Een kenmerk van menselijke innovatie is het proces van recombinatie – het creëren van originele ideeën door elementen van bestaande mechanismen en concepten te integreren. In dit werk automatiseren we het doorzoeken van de wetenschappelijke literatuur en bouwen we CHIMERA: een grootschalige kennisbank (KB) van recombinatievoorbeelden. CHIMERA kan worden gebruikt om op grote schaal empirisch te onderzoeken hoe wetenschappers concepten combineren en inspiratie putten uit verschillende domeinen, of om supervised machine learning-modellen te trainen die leren nieuwe creatieve, domeinoverschrijdende richtingen te voorspellen. Om deze KB te bouwen, introduceren we een nieuwe informatie-extractietaak waarbij recombinatie wordt geëxtraheerd uit wetenschappelijke paperabstracts, verzamelen we een hoogwaardig corpus van honderden handmatig geannoteerde abstracts, en gebruiken we dit om een LLM-gebaseerd extractiemodel te trainen. Het model wordt toegepast op een groot corpus van papers in het AI-domein, wat resulteert in een KB van meer dan 28K recombinatievoorbeelden. We analyseren CHIMERA om de eigenschappen van recombinatie in verschillende subgebieden van AI te verkennen. Tot slot trainen we een wetenschappelijk hypothesengeneratiemodel met behulp van de KB, dat nieuwe recombinatierichtingen voorspelt die onderzoekers in de praktijk inspirerend vinden. Onze data en code zijn beschikbaar op https://github.cs.huji.ac.il/tomhope-lab/CHIMERA.
English
A hallmark of human innovation is the process of recombination -- creating original ideas by integrating elements of existing mechanisms and concepts. In this work, we automatically mine the scientific literature and build CHIMERA: a large-scale knowledge base (KB) of recombination examples. CHIMERA can be used to empirically explore at scale how scientists recombine concepts and take inspiration from different areas, or to train supervised machine learning models that learn to predict new creative cross-domain directions. To build this KB, we present a novel information extraction task of extracting recombination from scientific paper abstracts, collect a high-quality corpus of hundreds of manually annotated abstracts, and use it to train an LLM-based extraction model. The model is applied to a large corpus of papers in the AI domain, yielding a KB of over 28K recombination examples. We analyze CHIMERA to explore the properties of recombination in different subareas of AI. Finally, we train a scientific hypothesis generation model using the KB, which predicts new recombination directions that real-world researchers find inspiring. Our data and code are available at https://github.cs.huji.ac.il/tomhope-lab/CHIMERA
PDF153May 29, 2025