Spacer : Vers une inspiration scientifique ingénierisée
Spacer: Towards Engineered Scientific Inspiration
August 25, 2025
papers.authors: Minhyeong Lee, Suyoung Hwang, Seunghyun Moon, Geonho Nah, Donghyun Koh, Youngjun Cho, Johyun Park, Hojin Yoo, Jiho Park, Haneul Choi, Sungbin Moon, Taehoon Hwang, Seungwon Kim, Jaeyeong Kim, Seongjun Kim, Juneau Jung
cs.AI
papers.abstract
Les récentes avancées dans les LLM (modèles de langage de grande envergure) ont placé la recherche scientifique automatisée au premier plan sur la voie de la superintelligence artificielle. Cependant, ces systèmes sont généralement limités à des tâches de portée restreinte ou aux capacités créatives limitées des LLM. Nous proposons Spacer, un système de découverte scientifique qui développe des concepts créatifs et factuellement fondés sans intervention externe. Spacer tente d'y parvenir via la « décontextualisation délibérée », une approche qui décompose l'information en unités atomiques — des mots-clés — et puise la créativité dans des connexions inexplorées entre eux. Spacer se compose de (i) Nuri, un moteur d'inspiration qui construit des ensembles de mots-clés, et (ii) le Pipeline de Manifestation qui affine ces ensembles en énoncés scientifiques élaborés. Nuri extrait des ensembles de mots-clés novateurs et à fort potentiel d'un graphe de mots-clés construit à partir de 180 000 publications académiques dans les domaines biologiques. Le Pipeline de Manifestation établit des liens entre les mots-clés, analyse leur structure logique, valide leur plausibilité et rédige finalement des concepts scientifiques originaux. Selon nos expériences, la métrique d'évaluation de Nuri classe avec précision les publications à fort impact avec un score AUROC de 0,737. Notre Pipeline de Manifestation reconstruit également avec succès les concepts clés des articles les plus récents des meilleures revues uniquement à partir de leurs ensembles de mots-clés. Un système de notation basé sur un LLM estime que cette reconstruction était solide dans plus de 85 % des cas. Enfin, notre analyse de l'espace d'embedding montre que les sorties de Spacer sont significativement plus similaires aux publications de référence par rapport à celles des LLM de pointe (SOTA).
English
Recent advances in LLMs have made automated scientific research the next
frontline in the path to artificial superintelligence. However, these systems
are bound either to tasks of narrow scope or the limited creative capabilities
of LLMs. We propose Spacer, a scientific discovery system that develops
creative and factually grounded concepts without external intervention. Spacer
attempts to achieve this via 'deliberate decontextualization,' an approach that
disassembles information into atomic units - keywords - and draws creativity
from unexplored connections between them. Spacer consists of (i) Nuri, an
inspiration engine that builds keyword sets, and (ii) the Manifesting Pipeline
that refines these sets into elaborate scientific statements. Nuri extracts
novel, high-potential keyword sets from a keyword graph built with 180,000
academic publications in biological fields. The Manifesting Pipeline finds
links between keywords, analyzes their logical structure, validates their
plausibility, and ultimately drafts original scientific concepts. According to
our experiments, the evaluation metric of Nuri accurately classifies
high-impact publications with an AUROC score of 0.737. Our Manifesting Pipeline
also successfully reconstructs core concepts from the latest top-journal
articles solely from their keyword sets. An LLM-based scoring system estimates
that this reconstruction was sound for over 85% of the cases. Finally, our
embedding space analysis shows that outputs from Spacer are significantly more
similar to leading publications compared with those from SOTA LLMs.