SciAtlas: Крупномасштабный граф знаний для автоматизированных научных исследований
SciAtlas: A Large-Scale Knowledge Graph for Automated Scientific Research
May 20, 2026
Авторы: Shuofei Qiao, Yunxiang Wei, Jiazheng Fan, Bin Wu, Busheng Zhang, Mengru Wang, Yuqi Zhu, Ningyu Zhang, Keyan Ding, Qiang Zhang, Huajun Chen
cs.AI
Аннотация
Экспоненциальный рост глобального объёма научных публикаций поставил перед исследователями и AI-агентами проблему беспрецедентного «информационного взрыва», где фрагментированная и неструктурированная организация знаний препятствует глубокой междисциплинарной интеграции. Современные инструменты академического поиска в основном полагаются на поверхностное совпадение ключевых слов или семантический поиск в векторном пространстве, что лишено возможностей топологических рассуждений, необходимых для навигации по сложным логическим связям. Агентные фреймворки на основе глубоких исследований часто склонны к логическим галлюцинациям и требуют высоких вычислительных затрат. Для преодоления этого разрыва в данном отчёте мы представляем SciAtlas — крупномасштабный, мультидисциплинарный, гетерогенный граф знаний академических ресурсов, разработанный как панорамная сеть научной эволюции. Объединяя более 43 миллионов статей из 26 дисциплин, а также в общей сложности 157 миллионов сущностей и 3 миллиарда триплетов, SciAtlas предоставляет структурированную топологическую когнитивную основу, которая разрушает дисциплинарные барьеры и наделяет AI-агентов глобальной перспективой. Кроме того, мы разрабатываем нейро-символический алгоритм поиска, включающий совместное извлечение по трём путям и переранжирование графа, что обеспечивает бесшовный переход от простого семантического сопоставления к детерминированному обнаружению связей. Мы также представляем ключевые направления применения SciAtlas, включая обзор литературы, автоматический синтез исследовательских тенденций, позиционирование идей и изучение академических траекторий, чтобы продемонстрировать, что SciAtlas может служить эффективной «когнитивной картой», обеспечивающей полный цикл автоматизированных научных исследований при значительном снижении вычислительных затрат. Мы опубликовали интерфейсы для поиска по графу знаний и различных задач нижнего уровня в нашем репозитории на GitHub.
English
The exponential growth of global academic output has confronted researchers and AI agents with an unprecedented ``information explosion,'' where fragmented and unstructured knowledge organization impedes deep interdisciplinary integration. Current academic retrieval tools predominantly rely on superficial keyword matching or vector-space semantic retrieval, which lack the topological reasoning capabilities required to navigate complex logical connections. Agentic deep-research-based frameworks are often prone to logical hallucinations and consuming high inference costs. To bridge this gap, in this report, we introduce SciAtlas, a large-scale, multi-disciplinary, heterogeneous academic resource knowledge graph designed as a panoramic scientific evolution network. By integrating over 43M papers from 26 disciplines, and a total of 157M entities and 3B triplets, SciAtlas provides a structured topological cognitive substrate that dismantles disciplinary barriers and furnishes AI agents with a global perspective. Furthermore, we develop a neuro-symbolic retrieval algorithm featuring tri-path collaborative recall and graph reranking, achieving a seamless transition from simple semantic matching to deterministic association discovery. We also present key application directions of SciAtlas, including literature review, automated research trend synthesis, idea positioning, and academic trajectory exploration, to demonstrate that SciAtlas can serve as an effective ``cognitive map'' to empower the full loop of automated scientific research while significantly reducing reasoning costs. We have released the interfaces for KG retrieval and various downstream tasks in our GitHub repo.