Spacer: Hacia la Inspiración Científica Diseñada
Spacer: Towards Engineered Scientific Inspiration
August 25, 2025
Autores: Minhyeong Lee, Suyoung Hwang, Seunghyun Moon, Geonho Nah, Donghyun Koh, Youngjun Cho, Johyun Park, Hojin Yoo, Jiho Park, Haneul Choi, Sungbin Moon, Taehoon Hwang, Seungwon Kim, Jaeyeong Kim, Seongjun Kim, Juneau Jung
cs.AI
Resumen
Los recientes avances en los LLM han convertido a la investigación científica automatizada en la próxima frontera en el camino hacia la superinteligencia artificial. Sin embargo, estos sistemas están limitados ya sea a tareas de alcance reducido o a las capacidades creativas limitadas de los LLM. Proponemos Spacer, un sistema de descubrimiento científico que desarrolla conceptos creativos y fundamentados en hechos sin intervención externa. Spacer intenta lograr esto mediante la "descontextualización deliberada", un enfoque que descompone la información en unidades atómicas —palabras clave— y extrae creatividad de conexiones inexploradas entre ellas. Spacer consta de (i) Nuri, un motor de inspiración que construye conjuntos de palabras clave, y (ii) el Pipeline de Manifestación que refina estos conjuntos en declaraciones científicas elaboradas. Nuri extrae conjuntos de palabras clave novedosos y de alto potencial de un grafo de palabras clave construido con 180,000 publicaciones académicas en campos biológicos. El Pipeline de Manifestación encuentra vínculos entre palabras clave, analiza su estructura lógica, valida su plausibilidad y, finalmente, redacta conceptos científicos originales. Según nuestros experimentos, la métrica de evaluación de Nuri clasifica con precisión publicaciones de alto impacto con un puntaje AUROC de 0.737. Nuestro Pipeline de Manifestación también reconstruye con éxito conceptos centrales de los últimos artículos de revistas de primer nivel únicamente a partir de sus conjuntos de palabras clave. Un sistema de puntuación basado en LLM estima que esta reconstrucción fue sólida en más del 85% de los casos. Finalmente, nuestro análisis del espacio de incrustación muestra que los resultados de Spacer son significativamente más similares a las publicaciones líderes en comparación con los de los LLM de última generación.
English
Recent advances in LLMs have made automated scientific research the next
frontline in the path to artificial superintelligence. However, these systems
are bound either to tasks of narrow scope or the limited creative capabilities
of LLMs. We propose Spacer, a scientific discovery system that develops
creative and factually grounded concepts without external intervention. Spacer
attempts to achieve this via 'deliberate decontextualization,' an approach that
disassembles information into atomic units - keywords - and draws creativity
from unexplored connections between them. Spacer consists of (i) Nuri, an
inspiration engine that builds keyword sets, and (ii) the Manifesting Pipeline
that refines these sets into elaborate scientific statements. Nuri extracts
novel, high-potential keyword sets from a keyword graph built with 180,000
academic publications in biological fields. The Manifesting Pipeline finds
links between keywords, analyzes their logical structure, validates their
plausibility, and ultimately drafts original scientific concepts. According to
our experiments, the evaluation metric of Nuri accurately classifies
high-impact publications with an AUROC score of 0.737. Our Manifesting Pipeline
also successfully reconstructs core concepts from the latest top-journal
articles solely from their keyword sets. An LLM-based scoring system estimates
that this reconstruction was sound for over 85% of the cases. Finally, our
embedding space analysis shows that outputs from Spacer are significantly more
similar to leading publications compared with those from SOTA LLMs.