SciAtlas: 自動科学研究のための大規模知識グラフ
SciAtlas: A Large-Scale Knowledge Graph for Automated Scientific Research
May 20, 2026
著者: Shuofei Qiao, Yunxiang Wei, Jiazheng Fan, Bin Wu, Busheng Zhang, Mengru Wang, Yuqi Zhu, Ningyu Zhang, Keyan Ding, Qiang Zhang, Huajun Chen
cs.AI
要旨
世界的な学術成果の指数的な増加により、研究者やAIエージェントはかつてない「情報爆発」に直面している。断片的で非構造化された知識の整理は、深い分野横断的な統合を妨げている。現在の学術検索ツールの大半は、表面的なキーワードマッチングやベクトル空間に基づく意味検索に依存しており、複雑な論理的関係を把握するために必要なトポロジカルな推論能力を欠いている。エージェント型の深層研究フレームワークは、しばしば論理的ハルシネーションを起こしやすく、高い推論コストを要する。この課題を解決するため、本報告書では、パノラマ的な科学進化ネットワークとして設計された、大規模・多分野・異種混在の学術リソース知識グラフ「SciAtlas」を紹介する。SciAtlasは、26分野にわたる4300万件以上の論文、合計1億5700万のエンティティと30億のトリプレットを統合することで、構造化されたトポロジカルな認知基盤を提供し、分野間の障壁を取り除き、AIエージェントにグローバルな視点をもたらす。さらに、トリパス協調的リコール(tri-path collaborative recall)とグラフ再ランキングを特徴とするニューロシンボリック検索アルゴリズムを開発し、単純な意味マッチングから決定論的な関連性発見へのシームレスな移行を実現した。また、文献レビュー、自動研究トレンド合成、アイデアポジショニング、学術的軌跡の探求など、SciAtlasの主要な応用方向性を示し、SciAtlasが推論コストを大幅に削減しながら、自動化された科学研究の全ループを強化する効果的な「認知マップ」として機能することを実証する。我々は、GitHubリポジトリにおいて、知識グラフ検索のためのインターフェースや各種下流タスクを公開している。
English
The exponential growth of global academic output has confronted researchers and AI agents with an unprecedented ``information explosion,'' where fragmented and unstructured knowledge organization impedes deep interdisciplinary integration. Current academic retrieval tools predominantly rely on superficial keyword matching or vector-space semantic retrieval, which lack the topological reasoning capabilities required to navigate complex logical connections. Agentic deep-research-based frameworks are often prone to logical hallucinations and consuming high inference costs. To bridge this gap, in this report, we introduce SciAtlas, a large-scale, multi-disciplinary, heterogeneous academic resource knowledge graph designed as a panoramic scientific evolution network. By integrating over 43M papers from 26 disciplines, and a total of 157M entities and 3B triplets, SciAtlas provides a structured topological cognitive substrate that dismantles disciplinary barriers and furnishes AI agents with a global perspective. Furthermore, we develop a neuro-symbolic retrieval algorithm featuring tri-path collaborative recall and graph reranking, achieving a seamless transition from simple semantic matching to deterministic association discovery. We also present key application directions of SciAtlas, including literature review, automated research trend synthesis, idea positioning, and academic trajectory exploration, to demonstrate that SciAtlas can serve as an effective ``cognitive map'' to empower the full loop of automated scientific research while significantly reducing reasoning costs. We have released the interfaces for KG retrieval and various downstream tasks in our GitHub repo.