SciAtlas: Un Grafo de Conocimiento a Gran Escala para la Investigación Científica Automatizada

Resumen

El crecimiento exponencial de la producción académica global ha enfrentado a investigadores y agentes de IA con una "explosión de información" sin precedentes, donde la organización fragmentada y no estructurada del conocimiento impide una integración interdisciplinaria profunda. Las herramientas actuales de recuperación académica dependen predominantemente de la coincidencia superficial de palabras clave o de la recuperación semántica en espacios vectoriales, las cuales carecen de las capacidades de razonamiento topológico necesarias para navegar conexiones lógicas complejas. Los marcos de trabajo basados en investigación profunda con agentes suelen ser propensos a alucinaciones lógicas y a consumir altos costos de inferencia. Para cerrar esta brecha, en este informe presentamos SciAtlas, un grafo de conocimiento de recursos académicos heterogéneos, multidisciplinarios y de gran escala, diseñado como una red panorámica de evolución científica. Al integrar más de 43 millones de artículos de 26 disciplinas, y un total de 157 millones de entidades y 3 mil millones de tripletes, SciAtlas proporciona un sustrato cognitivo topológico estructurado que desmantela las barreras disciplinarias y dota a los agentes de IA de una perspectiva global. Además, desarrollamos un algoritmo de recuperación neuro-simbólico que cuenta con recuperación colaborativa de tres vías y reordenamiento por grafos, logrando una transición fluida desde la coincidencia semántica simple hasta el descubrimiento determinista de asociaciones. También presentamos direcciones clave de aplicación de SciAtlas, que incluyen revisión de literatura, síntesis automatizada de tendencias de investigación, posicionamiento de ideas y exploración de trayectorias académicas, para demostrar que SciAtlas puede servir como un "mapa cognitivo" eficaz que potencie el ciclo completo de la investigación científica automatizada, al tiempo que reduce significativamente los costos de razonamiento. Hemos publicado las interfaces para la recuperación del grafo de conocimiento y diversas tareas posteriores en nuestro repositorio de GitHub.

English

The exponential growth of global academic output has confronted researchers and AI agents with an unprecedented ``information explosion,'' where fragmented and unstructured knowledge organization impedes deep interdisciplinary integration. Current academic retrieval tools predominantly rely on superficial keyword matching or vector-space semantic retrieval, which lack the topological reasoning capabilities required to navigate complex logical connections. Agentic deep-research-based frameworks are often prone to logical hallucinations and consuming high inference costs. To bridge this gap, in this report, we introduce SciAtlas, a large-scale, multi-disciplinary, heterogeneous academic resource knowledge graph designed as a panoramic scientific evolution network. By integrating over 43M papers from 26 disciplines, and a total of 157M entities and 3B triplets, SciAtlas provides a structured topological cognitive substrate that dismantles disciplinary barriers and furnishes AI agents with a global perspective. Furthermore, we develop a neuro-symbolic retrieval algorithm featuring tri-path collaborative recall and graph reranking, achieving a seamless transition from simple semantic matching to deterministic association discovery. We also present key application directions of SciAtlas, including literature review, automated research trend synthesis, idea positioning, and academic trajectory exploration, to demonstrate that SciAtlas can serve as an effective ``cognitive map'' to empower the full loop of automated scientific research while significantly reducing reasoning costs. We have released the interfaces for KG retrieval and various downstream tasks in our GitHub repo.