SciAtlas : Un graphe de connaissances à grande échelle pour la recherche scientifique automatisée
SciAtlas: A Large-Scale Knowledge Graph for Automated Scientific Research
May 20, 2026
Auteurs: Shuofei Qiao, Yunxiang Wei, Jiazheng Fan, Bin Wu, Busheng Zhang, Mengru Wang, Yuqi Zhu, Ningyu Zhang, Keyan Ding, Qiang Zhang, Huajun Chen
cs.AI
Résumé
La croissance exponentielle de la production académique mondiale a confronté les chercheurs et les agents d'IA à une « explosion informationnelle » sans précédent, où l'organisation fragmentée et non structurée des connaissances entrave une intégration interdisciplinaire approfondie. Les outils de recherche académique actuels reposent principalement sur un appariement superficiel par mots-clés ou une recherche sémantique vectorielle, dépourvus des capacités de raisonnement topologique nécessaires pour naviguer dans des connexions logiques complexes. Les cadres fondés sur la recherche profonde agentique sont souvent sujets à des hallucinations logiques et à des coûts d'inférence élevés. Pour combler cette lacune, nous présentons dans ce rapport SciAtlas, un graphe de connaissances de ressources académiques hétérogène, multidisciplinaire et à grande échelle, conçu comme un réseau panoramique d'évolution scientifique. En intégrant plus de 43 millions de publications issues de 26 disciplines, ainsi qu'un total de 157 millions d'entités et 3 milliards de triplets, SciAtlas offre un substrat cognitif topologique structuré qui démantèle les barrières disciplinaires et dote les agents d'IA d'une perspective globale. De plus, nous développons un algorithme de recherche neuro-symbolique caractérisé par un rappel collaboratif à trois voies et un réordonnancement par graphe, permettant une transition fluide de l'appariement sémantique simple à la découverte d'associations déterministes. Nous présentons également les principales orientations applicatives de SciAtlas, notamment la revue de la littérature, la synthèse automatisée des tendances de recherche, le positionnement d'idées et l'exploration de trajectoires académiques, afin de démontrer que SciAtlas peut servir de « carte cognitive » efficace pour autonomiser l'ensemble du cycle de la recherche scientifique automatisée tout en réduisant considérablement les coûts de raisonnement. Nous avons publié les interfaces de recherche dans le graphe de connaissances et diverses tâches en aval dans notre dépôt GitHub.
English
The exponential growth of global academic output has confronted researchers and AI agents with an unprecedented ``information explosion,'' where fragmented and unstructured knowledge organization impedes deep interdisciplinary integration. Current academic retrieval tools predominantly rely on superficial keyword matching or vector-space semantic retrieval, which lack the topological reasoning capabilities required to navigate complex logical connections. Agentic deep-research-based frameworks are often prone to logical hallucinations and consuming high inference costs. To bridge this gap, in this report, we introduce SciAtlas, a large-scale, multi-disciplinary, heterogeneous academic resource knowledge graph designed as a panoramic scientific evolution network. By integrating over 43M papers from 26 disciplines, and a total of 157M entities and 3B triplets, SciAtlas provides a structured topological cognitive substrate that dismantles disciplinary barriers and furnishes AI agents with a global perspective. Furthermore, we develop a neuro-symbolic retrieval algorithm featuring tri-path collaborative recall and graph reranking, achieving a seamless transition from simple semantic matching to deterministic association discovery. We also present key application directions of SciAtlas, including literature review, automated research trend synthesis, idea positioning, and academic trajectory exploration, to demonstrate that SciAtlas can serve as an effective ``cognitive map'' to empower the full loop of automated scientific research while significantly reducing reasoning costs. We have released the interfaces for KG retrieval and various downstream tasks in our GitHub repo.