Spacer: Verso un'ispirazione scientifica ingegnerizzata
Spacer: Towards Engineered Scientific Inspiration
August 25, 2025
Autori: Minhyeong Lee, Suyoung Hwang, Seunghyun Moon, Geonho Nah, Donghyun Koh, Youngjun Cho, Johyun Park, Hojin Yoo, Jiho Park, Haneul Choi, Sungbin Moon, Taehoon Hwang, Seungwon Kim, Jaeyeong Kim, Seongjun Kim, Juneau Jung
cs.AI
Abstract
I recenti progressi nei LLM hanno reso la ricerca scientifica automatizzata la prossima frontiera nel percorso verso la superintelligenza artificiale. Tuttavia, questi sistemi sono limitati a compiti di ambito ristretto o alle capacità creative limitate dei LLM. Proponiamo Spacer, un sistema di scoperta scientifica che sviluppa concetti creativi e fondati su fatti senza interventi esterni. Spacer cerca di raggiungere questo obiettivo attraverso la "decontestualizzazione deliberata", un approccio che scompone le informazioni in unità atomiche - parole chiave - e trae creatività da connessioni inesplorate tra di esse. Spacer è composto da (i) Nuri, un motore di ispirazione che costruisce insiemi di parole chiave, e (ii) il Manifesting Pipeline che affina questi insiemi in dichiarazioni scientifiche elaborate. Nuri estrae insiemi di parole chiave nuovi e ad alto potenziale da un grafo di parole chiave costruito con 180.000 pubblicazioni accademiche in campi biologici. Il Manifesting Pipeline trova collegamenti tra le parole chiave, analizza la loro struttura logica, ne valuta la plausibilità e infine redige concetti scientifici originali. Secondo i nostri esperimenti, la metrica di valutazione di Nuri classifica accuratamente pubblicazioni ad alto impatto con un punteggio AUROC di 0.737. Il nostro Manifesting Pipeline ricostruisce con successo anche i concetti chiave degli articoli più recenti delle principali riviste scientifiche partendo esclusivamente dai loro insiemi di parole chiave. Un sistema di punteggio basato su LLM stima che questa ricostruzione sia stata valida in oltre l'85% dei casi. Infine, la nostra analisi dello spazio di embedding mostra che gli output di Spacer sono significativamente più simili alle pubblicazioni leader rispetto a quelli dei LLM SOTA.
English
Recent advances in LLMs have made automated scientific research the next
frontline in the path to artificial superintelligence. However, these systems
are bound either to tasks of narrow scope or the limited creative capabilities
of LLMs. We propose Spacer, a scientific discovery system that develops
creative and factually grounded concepts without external intervention. Spacer
attempts to achieve this via 'deliberate decontextualization,' an approach that
disassembles information into atomic units - keywords - and draws creativity
from unexplored connections between them. Spacer consists of (i) Nuri, an
inspiration engine that builds keyword sets, and (ii) the Manifesting Pipeline
that refines these sets into elaborate scientific statements. Nuri extracts
novel, high-potential keyword sets from a keyword graph built with 180,000
academic publications in biological fields. The Manifesting Pipeline finds
links between keywords, analyzes their logical structure, validates their
plausibility, and ultimately drafts original scientific concepts. According to
our experiments, the evaluation metric of Nuri accurately classifies
high-impact publications with an AUROC score of 0.737. Our Manifesting Pipeline
also successfully reconstructs core concepts from the latest top-journal
articles solely from their keyword sets. An LLM-based scoring system estimates
that this reconstruction was sound for over 85% of the cases. Finally, our
embedding space analysis shows that outputs from Spacer are significantly more
similar to leading publications compared with those from SOTA LLMs.