SciAtlas: Een grootschalige kennisgraaf voor geautomatiseerd wetenschappelijk onderzoek
SciAtlas: A Large-Scale Knowledge Graph for Automated Scientific Research
May 20, 2026
Auteurs: Shuofei Qiao, Yunxiang Wei, Jiazheng Fan, Bin Wu, Busheng Zhang, Mengru Wang, Yuqi Zhu, Ningyu Zhang, Keyan Ding, Qiang Zhang, Huajun Chen
cs.AI
Samenvatting
De exponentiële groei van de wereldwijde academische output heeft onderzoekers en AI-agenten geconfronteerd met een ongekende 'informatie-explosie', waarbij gefragmenteerde en ongestructureerde kennisorganisatie diepgaande interdisciplinaire integratie belemmert. Huidige academische zoekinstrumenten zijn voornamelijk afhankelijk van oppervlakkige trefwoordmatching of vectorruimte semantisch zoeken, die de topologische redeneervaardigheden missen die nodig zijn om complexe logische verbanden te navigeren. Agent-gebaseerde diepgaande onderzoekskaders zijn vaak vatbaar voor logische hallucinaties en verbruiken hoge afleidingskosten. Om deze kloof te overbruggen, introduceren we in dit rapport SciAtlas, een grootschalige, multidisciplinaire, heterogene kennisgraaf van academische bronnen, ontworpen als een panoramisch wetenschappelijk evolutienetwerk. Door meer dan 43 miljoen papers uit 26 disciplines, en in totaal 157 miljoen entiteiten en 3 miljard tripletten te integreren, biedt SciAtlas een gestructureerd topologisch cognitief substraat dat disciplinaire barrières afbreekt en AI-agenten van een globaal perspectief voorziet. Verder ontwikkelen we een neuro-symbolisch retrievalalgoritme met drie-pad collaboratieve recall en graaf herrangschikking, waarmee een naadloze overgang wordt gerealiseerd van eenvoudige semantische matching naar deterministische associatieontdekking. We presenteren ook belangrijke toepassingsrichtingen van SciAtlas, waaronder literatuuronderzoek, geautomatiseerde onderzoekstrendsynthese, ideepositionering en academische trajectverkenning, om aan te tonen dat SciAtlas kan dienen als een effectieve 'cognitieve kaart' om de volledige cyclus van geautomatiseerd wetenschappelijk onderzoek te versterken, terwijl de redeneerkosten aanzienlijk worden verlaagd. We hebben de interfaces voor KG-retrieval en diverse stroomafwaartse taken vrijgegeven in onze GitHub-repository.
English
The exponential growth of global academic output has confronted researchers and AI agents with an unprecedented ``information explosion,'' where fragmented and unstructured knowledge organization impedes deep interdisciplinary integration. Current academic retrieval tools predominantly rely on superficial keyword matching or vector-space semantic retrieval, which lack the topological reasoning capabilities required to navigate complex logical connections. Agentic deep-research-based frameworks are often prone to logical hallucinations and consuming high inference costs. To bridge this gap, in this report, we introduce SciAtlas, a large-scale, multi-disciplinary, heterogeneous academic resource knowledge graph designed as a panoramic scientific evolution network. By integrating over 43M papers from 26 disciplines, and a total of 157M entities and 3B triplets, SciAtlas provides a structured topological cognitive substrate that dismantles disciplinary barriers and furnishes AI agents with a global perspective. Furthermore, we develop a neuro-symbolic retrieval algorithm featuring tri-path collaborative recall and graph reranking, achieving a seamless transition from simple semantic matching to deterministic association discovery. We also present key application directions of SciAtlas, including literature review, automated research trend synthesis, idea positioning, and academic trajectory exploration, to demonstrate that SciAtlas can serve as an effective ``cognitive map'' to empower the full loop of automated scientific research while significantly reducing reasoning costs. We have released the interfaces for KG retrieval and various downstream tasks in our GitHub repo.