Spacer: На пути к инженерному научному вдохновению
Spacer: Towards Engineered Scientific Inspiration
August 25, 2025
Авторы: Minhyeong Lee, Suyoung Hwang, Seunghyun Moon, Geonho Nah, Donghyun Koh, Youngjun Cho, Johyun Park, Hojin Yoo, Jiho Park, Haneul Choi, Sungbin Moon, Taehoon Hwang, Seungwon Kim, Jaeyeong Kim, Seongjun Kim, Juneau Jung
cs.AI
Аннотация
Последние достижения в области больших языковых моделей (LLM) сделали автоматизированные научные исследования следующим рубежом на пути к искусственному сверхразуму. Однако эти системы ограничены либо узкими задачами, либо ограниченными творческими возможностями LLM. Мы предлагаем Spacer — систему научных открытий, которая разрабатывает творческие и фактически обоснованные концепции без внешнего вмешательства. Spacer стремится достичь этого с помощью "осознанной деконтекстуализации" — подхода, который разбирает информацию на атомарные единицы (ключевые слова) и черпает творчество из неисследованных связей между ними. Spacer состоит из (i) Nuri — механизма вдохновения, который создает наборы ключевых слов, и (ii) Manifesting Pipeline, который преобразует эти наборы в детализированные научные утверждения. Nuri извлекает новые, перспективные наборы ключевых слов из графа, построенного на основе 180 000 академических публикаций в биологических областях. Manifesting Pipeline находит связи между ключевыми словами, анализирует их логическую структуру, проверяет их правдоподобность и в конечном итоге формулирует оригинальные научные концепции. Согласно нашим экспериментам, метрика оценки Nuri точно классифицирует высокоэффективные публикации с показателем AUROC 0,737. Наш Manifesting Pipeline также успешно восстанавливает ключевые концепции из последних статей ведущих журналов, используя только их наборы ключевых слов. Система оценки на основе LLM показывает, что это восстановление было корректным в более чем 85% случаев. Наконец, анализ пространства эмбеддингов демонстрирует, что результаты Spacer значительно ближе к ведущим публикациям по сравнению с результатами современных LLM.
English
Recent advances in LLMs have made automated scientific research the next
frontline in the path to artificial superintelligence. However, these systems
are bound either to tasks of narrow scope or the limited creative capabilities
of LLMs. We propose Spacer, a scientific discovery system that develops
creative and factually grounded concepts without external intervention. Spacer
attempts to achieve this via 'deliberate decontextualization,' an approach that
disassembles information into atomic units - keywords - and draws creativity
from unexplored connections between them. Spacer consists of (i) Nuri, an
inspiration engine that builds keyword sets, and (ii) the Manifesting Pipeline
that refines these sets into elaborate scientific statements. Nuri extracts
novel, high-potential keyword sets from a keyword graph built with 180,000
academic publications in biological fields. The Manifesting Pipeline finds
links between keywords, analyzes their logical structure, validates their
plausibility, and ultimately drafts original scientific concepts. According to
our experiments, the evaluation metric of Nuri accurately classifies
high-impact publications with an AUROC score of 0.737. Our Manifesting Pipeline
also successfully reconstructs core concepts from the latest top-journal
articles solely from their keyword sets. An LLM-based scoring system estimates
that this reconstruction was sound for over 85% of the cases. Finally, our
embedding space analysis shows that outputs from Spacer are significantly more
similar to leading publications compared with those from SOTA LLMs.