ChatPaper.aiChatPaper

CHIMERA: Una Base di Conoscenza sulla Ricombinazione di Idee nella Letteratura Scientifica

CHIMERA: A Knowledge Base of Idea Recombination in Scientific Literature

May 27, 2025
Autori: Noy Sternlicht, Tom Hope
cs.AI

Abstract

Un tratto distintivo dell'innovazione umana è il processo di ricombinazione: la creazione di idee originali integrando elementi di meccanismi e concetti esistenti. In questo lavoro, analizziamo automaticamente la letteratura scientifica e costruiamo CHIMERA: una knowledge base (KB) su larga scala di esempi di ricombinazione. CHIMERA può essere utilizzata per esplorare empiricamente, su vasta scala, come gli scienziati ricombinano concetti e traggono ispirazione da aree diverse, o per addestrare modelli di machine learning supervisionati che imparano a prevedere nuove direzioni creative interdominio. Per costruire questa KB, presentiamo un nuovo task di estrazione delle informazioni volto a identificare la ricombinazione negli abstract di articoli scientifici, raccogliamo un corpus di alta qualità composto da centinaia di abstract annotati manualmente e lo utilizziamo per addestrare un modello di estrazione basato su LLM. Il modello viene applicato a un ampio corpus di articoli nel dominio dell'IA, producendo una KB con oltre 28K esempi di ricombinazione. Analizziamo CHIMERA per esplorare le proprietà della ricombinazione in diverse sottoaree dell'IA. Infine, addestriamo un modello di generazione di ipotesi scientifiche utilizzando la KB, che prevede nuove direzioni di ricombinazione che i ricercatori del mondo reale trovano stimolanti. I nostri dati e il codice sono disponibili all'indirizzo https://github.cs.huji.ac.il/tomhope-lab/CHIMERA.
English
A hallmark of human innovation is the process of recombination -- creating original ideas by integrating elements of existing mechanisms and concepts. In this work, we automatically mine the scientific literature and build CHIMERA: a large-scale knowledge base (KB) of recombination examples. CHIMERA can be used to empirically explore at scale how scientists recombine concepts and take inspiration from different areas, or to train supervised machine learning models that learn to predict new creative cross-domain directions. To build this KB, we present a novel information extraction task of extracting recombination from scientific paper abstracts, collect a high-quality corpus of hundreds of manually annotated abstracts, and use it to train an LLM-based extraction model. The model is applied to a large corpus of papers in the AI domain, yielding a KB of over 28K recombination examples. We analyze CHIMERA to explore the properties of recombination in different subareas of AI. Finally, we train a scientific hypothesis generation model using the KB, which predicts new recombination directions that real-world researchers find inspiring. Our data and code are available at https://github.cs.huji.ac.il/tomhope-lab/CHIMERA
PDF153May 29, 2025