Spacer: Rumo à Inspiração Científica Projetada
Spacer: Towards Engineered Scientific Inspiration
August 25, 2025
Autores: Minhyeong Lee, Suyoung Hwang, Seunghyun Moon, Geonho Nah, Donghyun Koh, Youngjun Cho, Johyun Park, Hojin Yoo, Jiho Park, Haneul Choi, Sungbin Moon, Taehoon Hwang, Seungwon Kim, Jaeyeong Kim, Seongjun Kim, Juneau Jung
cs.AI
Resumo
Os recentes avanços em LLMs (Modelos de Linguagem de Grande Escala) tornaram a pesquisa científica automatizada a próxima fronteira no caminho para a superinteligência artificial. No entanto, esses sistemas estão limitados a tarefas de escopo restrito ou às capacidades criativas limitadas dos LLMs. Propomos o Spacer, um sistema de descoberta científica que desenvolve conceitos criativos e fundamentados em fatos sem intervenção externa. O Spacer busca alcançar isso por meio da "descontextualização deliberada", uma abordagem que desmonta a informação em unidades atômicas — palavras-chave — e extrai criatividade de conexões inexploradas entre elas. O Spacer consiste em (i) Nuri, um motor de inspiração que constrói conjuntos de palavras-chave, e (ii) o Pipeline de Manifestação, que refina esses conjuntos em declarações científicas elaboradas. O Nuri extrai conjuntos de palavras-chave novos e de alto potencial de um grafo de palavras-chave construído com 180.000 publicações acadêmicas em áreas biológicas. O Pipeline de Manifestação encontra ligações entre as palavras-chave, analisa sua estrutura lógica, valida sua plausibilidade e, por fim, redige conceitos científicos originais. De acordo com nossos experimentos, a métrica de avaliação do Nuri classifica com precisão publicações de alto impacto, com um score AUROC de 0,737. Nosso Pipeline de Manifestação também reconstrói com sucesso conceitos centrais dos artigos mais recentes de revistas de alto impacto, apenas a partir de seus conjuntos de palavras-chave. Um sistema de pontuação baseado em LLM estima que essa reconstrução foi sólida em mais de 85% dos casos. Por fim, nossa análise do espaço de embeddings mostra que as saídas do Spacer são significativamente mais semelhantes às publicações líderes em comparação com as dos LLMs state-of-the-art (SOTA).
English
Recent advances in LLMs have made automated scientific research the next
frontline in the path to artificial superintelligence. However, these systems
are bound either to tasks of narrow scope or the limited creative capabilities
of LLMs. We propose Spacer, a scientific discovery system that develops
creative and factually grounded concepts without external intervention. Spacer
attempts to achieve this via 'deliberate decontextualization,' an approach that
disassembles information into atomic units - keywords - and draws creativity
from unexplored connections between them. Spacer consists of (i) Nuri, an
inspiration engine that builds keyword sets, and (ii) the Manifesting Pipeline
that refines these sets into elaborate scientific statements. Nuri extracts
novel, high-potential keyword sets from a keyword graph built with 180,000
academic publications in biological fields. The Manifesting Pipeline finds
links between keywords, analyzes their logical structure, validates their
plausibility, and ultimately drafts original scientific concepts. According to
our experiments, the evaluation metric of Nuri accurately classifies
high-impact publications with an AUROC score of 0.737. Our Manifesting Pipeline
also successfully reconstructs core concepts from the latest top-journal
articles solely from their keyword sets. An LLM-based scoring system estimates
that this reconstruction was sound for over 85% of the cases. Finally, our
embedding space analysis shows that outputs from Spacer are significantly more
similar to leading publications compared with those from SOTA LLMs.