CHIMERA: Eine Wissensdatenbank zur Ideenrekombination in der wissenschaftlichen Literatur
CHIMERA: A Knowledge Base of Idea Recombination in Scientific Literature
May 27, 2025
Autoren: Noy Sternlicht, Tom Hope
cs.AI
Zusammenfassung
Ein Kennzeichen menschlicher Innovation ist der Prozess der Rekombination – die Schaffung origineller Ideen durch die Integration von Elementen bestehender Mechanismen und Konzepte. In dieser Arbeit automatisieren wir die Durchforstung der wissenschaftlichen Literatur und erstellen CHIMERA: eine groß angelegte Wissensdatenbank (KB) mit Beispielen für Rekombination. CHIMERA kann genutzt werden, um empirisch und in großem Maßstab zu erforschen, wie Wissenschaftler Konzepte rekombinieren und Inspiration aus verschiedenen Bereichen ziehen, oder um überwachte Machine-Learning-Modelle zu trainieren, die lernen, neue kreative, domänenübergreifende Richtungen vorherzusagen. Um diese KB zu erstellen, stellen wir eine neuartige Informationsextraktionsaufgabe vor, bei der Rekombinationen aus Abstracts wissenschaftlicher Artikel extrahiert werden, sammeln einen hochwertigen Korpus von Hunderten manuell annotierter Abstracts und nutzen diesen, um ein auf einem Large Language Model (LLM) basierendes Extraktionsmodell zu trainieren. Das Modell wird auf einen großen Korpus von Artikeln im Bereich der KI angewendet, was eine KB mit über 28.000 Rekombinationsbeispielen ergibt. Wir analysieren CHIMERA, um die Eigenschaften der Rekombination in verschiedenen Teilbereichen der KI zu untersuchen. Schließlich trainieren wir ein Modell zur Generierung wissenschaftlicher Hypothesen mithilfe der KB, das neue Rekombinationsrichtungen vorhersagt, die von Forschern in der Praxis als inspirierend empfunden werden. Unsere Daten und der Code sind verfügbar unter https://github.cs.huji.ac.il/tomhope-lab/CHIMERA.
English
A hallmark of human innovation is the process of recombination -- creating
original ideas by integrating elements of existing mechanisms and concepts. In
this work, we automatically mine the scientific literature and build CHIMERA: a
large-scale knowledge base (KB) of recombination examples. CHIMERA can be used
to empirically explore at scale how scientists recombine concepts and take
inspiration from different areas, or to train supervised machine learning
models that learn to predict new creative cross-domain directions. To build
this KB, we present a novel information extraction task of extracting
recombination from scientific paper abstracts, collect a high-quality corpus of
hundreds of manually annotated abstracts, and use it to train an LLM-based
extraction model. The model is applied to a large corpus of papers in the AI
domain, yielding a KB of over 28K recombination examples. We analyze CHIMERA to
explore the properties of recombination in different subareas of AI. Finally,
we train a scientific hypothesis generation model using the KB, which predicts
new recombination directions that real-world researchers find inspiring. Our
data and code are available at https://github.cs.huji.ac.il/tomhope-lab/CHIMERASummary
AI-Generated Summary