ChatPaper.aiChatPaper

CHIMERA: Uma Base de Conhecimento sobre Recombinação de Ideias na Literatura Científica

CHIMERA: A Knowledge Base of Idea Recombination in Scientific Literature

May 27, 2025
Autores: Noy Sternlicht, Tom Hope
cs.AI

Resumo

Uma característica marcante da inovação humana é o processo de recombinação - a criação de ideias originais por meio da integração de elementos de mecanismos e conceitos existentes. Neste trabalho, mineramos automaticamente a literatura científica e construímos o CHIMERA: uma base de conhecimento (KB) em larga escala de exemplos de recombinação. O CHIMERA pode ser usado para explorar empiricamente, em escala, como os cientistas recombinam conceitos e se inspiram em diferentes áreas, ou para treinar modelos de aprendizado de máquina supervisionados que aprendem a prever novas direções criativas entre domínios. Para construir essa KB, apresentamos uma nova tarefa de extração de informações que consiste em extrair recombinações de resumos de artigos científicos, coletamos um corpus de alta qualidade com centenas de resumos anotados manualmente e o utilizamos para treinar um modelo de extração baseado em LLM (Large Language Model). O modelo é aplicado a um grande corpus de artigos na área de IA, resultando em uma KB com mais de 28 mil exemplos de recombinação. Analisamos o CHIMERA para explorar as propriedades da recombinação em diferentes subáreas da IA. Por fim, treinamos um modelo de geração de hipóteses científicas usando a KB, que prevê novas direções de recombinação consideradas inspiradoras por pesquisadores do mundo real. Nossos dados e código estão disponíveis em https://github.cs.huji.ac.il/tomhope-lab/CHIMERA.
English
A hallmark of human innovation is the process of recombination -- creating original ideas by integrating elements of existing mechanisms and concepts. In this work, we automatically mine the scientific literature and build CHIMERA: a large-scale knowledge base (KB) of recombination examples. CHIMERA can be used to empirically explore at scale how scientists recombine concepts and take inspiration from different areas, or to train supervised machine learning models that learn to predict new creative cross-domain directions. To build this KB, we present a novel information extraction task of extracting recombination from scientific paper abstracts, collect a high-quality corpus of hundreds of manually annotated abstracts, and use it to train an LLM-based extraction model. The model is applied to a large corpus of papers in the AI domain, yielding a KB of over 28K recombination examples. We analyze CHIMERA to explore the properties of recombination in different subareas of AI. Finally, we train a scientific hypothesis generation model using the KB, which predicts new recombination directions that real-world researchers find inspiring. Our data and code are available at https://github.cs.huji.ac.il/tomhope-lab/CHIMERA
PDF153May 29, 2025