CHIMERA: База знаний о рекомбинации идей в научной литературе
CHIMERA: A Knowledge Base of Idea Recombination in Scientific Literature
May 27, 2025
Авторы: Noy Sternlicht, Tom Hope
cs.AI
Аннотация
Отличительной чертой человеческих инноваций является процесс рекомбинации — создание оригинальных идей путем интеграции элементов существующих механизмов и концепций. В данной работе мы автоматически анализируем научную литературу и создаем CHIMERA: крупномасштабную базу знаний (KB) примеров рекомбинации. CHIMERA может быть использована для эмпирического исследования в масштабе того, как ученые комбинируют концепции и черпают вдохновение из различных областей, или для обучения моделей машинного обучения с учителем, которые учатся предсказывать новые креативные междисциплинарные направления. Для создания этой базы знаний мы представляем новую задачу извлечения информации — извлечение рекомбинации из аннотаций научных статей, собираем высококачественный корпус из сотен аннотаций, аннотированных вручную, и используем его для обучения модели извлечения на основе LLM. Модель применяется к большому корпусу статей в области ИИ, что позволяет получить базу знаний, содержащую более 28 тыс. примеров рекомбинации. Мы анализируем CHIMERA, чтобы изучить свойства рекомбинации в различных подразделах ИИ. Наконец, мы обучаем модель генерации научных гипотез с использованием базы знаний, которая предсказывает новые направления рекомбинации, вдохновляющие реальных исследователей. Наши данные и код доступны по адресу https://github.cs.huji.ac.il/tomhope-lab/CHIMERA.
English
A hallmark of human innovation is the process of recombination -- creating
original ideas by integrating elements of existing mechanisms and concepts. In
this work, we automatically mine the scientific literature and build CHIMERA: a
large-scale knowledge base (KB) of recombination examples. CHIMERA can be used
to empirically explore at scale how scientists recombine concepts and take
inspiration from different areas, or to train supervised machine learning
models that learn to predict new creative cross-domain directions. To build
this KB, we present a novel information extraction task of extracting
recombination from scientific paper abstracts, collect a high-quality corpus of
hundreds of manually annotated abstracts, and use it to train an LLM-based
extraction model. The model is applied to a large corpus of papers in the AI
domain, yielding a KB of over 28K recombination examples. We analyze CHIMERA to
explore the properties of recombination in different subareas of AI. Finally,
we train a scientific hypothesis generation model using the KB, which predicts
new recombination directions that real-world researchers find inspiring. Our
data and code are available at https://github.cs.huji.ac.il/tomhope-lab/CHIMERASummary
AI-Generated Summary