SciAtlas: Um Grafo de Conhecimento em Larga Escala para Pesquisa Científica Automatizada
SciAtlas: A Large-Scale Knowledge Graph for Automated Scientific Research
May 20, 2026
Autores: Shuofei Qiao, Yunxiang Wei, Jiazheng Fan, Bin Wu, Busheng Zhang, Mengru Wang, Yuqi Zhu, Ningyu Zhang, Keyan Ding, Qiang Zhang, Huajun Chen
cs.AI
Resumo
O crescimento exponencial da produção acadêmica global confrontou pesquisadores e agentes de IA com uma "explosão de informação" sem precedentes, onde a organização fragmentada e não estruturada do conhecimento impede a integração interdisciplinar profunda. As ferramentas atuais de recuperação acadêmica baseiam-se predominantemente em correspondência superficial de palavras-chave ou recuperação semântica em espaço vetorial, carecendo das capacidades de raciocínio topológico necessárias para navegar por conexões lógicas complexas. Estruturas baseadas em pesquisa profunda orientada por agentes frequentemente são propensas a alucinações lógicas e consomem altos custos de inferência. Para preencher essa lacuna, neste relatório apresentamos o SciAtlas, um grafo de conhecimento de recursos acadêmicos heterogêneo, multidisciplinar e em larga escala, projetado como uma rede panorâmica de evolução científica. Ao integrar mais de 43 milhões de artigos de 26 disciplinas, totalizando 157 milhões de entidades e 3 bilhões de tripletas, o SciAtlas fornece um substrato cognitivo topológico estruturado que desmantela barreiras disciplinares e dota agentes de IA de uma perspectiva global. Além disso, desenvolvemos um algoritmo de recuperação neuro-simbólica com recuperação colaborativa de três caminhos e reordenamento de grafo, alcançando uma transição suave da correspondência semântica simples para a descoberta determinística de associações. Também apresentamos direções-chave de aplicação do SciAtlas, incluindo revisão de literatura, síntese automatizada de tendências de pesquisa, posicionamento de ideias e exploração de trajetórias acadêmicas, para demonstrar que o SciAtlas pode servir como um "mapa cognitivo" eficaz para capacitar o ciclo completo da pesquisa científica automatizada, reduzindo significativamente os custos de inferência. Disponibilizamos as interfaces para recuperação do grafo de conhecimento e diversas tarefas downstream em nosso repositório no GitHub.
English
The exponential growth of global academic output has confronted researchers and AI agents with an unprecedented ``information explosion,'' where fragmented and unstructured knowledge organization impedes deep interdisciplinary integration. Current academic retrieval tools predominantly rely on superficial keyword matching or vector-space semantic retrieval, which lack the topological reasoning capabilities required to navigate complex logical connections. Agentic deep-research-based frameworks are often prone to logical hallucinations and consuming high inference costs. To bridge this gap, in this report, we introduce SciAtlas, a large-scale, multi-disciplinary, heterogeneous academic resource knowledge graph designed as a panoramic scientific evolution network. By integrating over 43M papers from 26 disciplines, and a total of 157M entities and 3B triplets, SciAtlas provides a structured topological cognitive substrate that dismantles disciplinary barriers and furnishes AI agents with a global perspective. Furthermore, we develop a neuro-symbolic retrieval algorithm featuring tri-path collaborative recall and graph reranking, achieving a seamless transition from simple semantic matching to deterministic association discovery. We also present key application directions of SciAtlas, including literature review, automated research trend synthesis, idea positioning, and academic trajectory exploration, to demonstrate that SciAtlas can serve as an effective ``cognitive map'' to empower the full loop of automated scientific research while significantly reducing reasoning costs. We have released the interfaces for KG retrieval and various downstream tasks in our GitHub repo.