ATLAS:フロンティア科学的推論のための高難度・学際的ベンチマーク
ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning
November 18, 2025
著者: Hongwei Liu, Junnan Liu, Shudong Liu, Haodong Duan, Yuqiang Li, Mao Su, Xiaohong Liu, Guangtao Zhai, Xinyu Fang, Qianhong Ma, Taolin Zhang, Zihan Ma, Yufeng Zhao, Peiheng Zhou, Linchen Xiao, Wenlong Zhang, Shijie Zhou, Xingjian Ma, Siqi Sun, Jiaye Ge, Meng Li, Yuhong Liu, Jianxin Dong, Jiaying Li, Hui Wu, Hanwen Liang, Jintai Lin, Yanting Wang, Jie Dong, Tong Zhu, Tianfan Fu, Conghui He, Qi Zhang, Songyang Zhang, Lei Bai, Kai Chen
cs.AI
要旨
大規模言語モデル(LLMs)の急速な発展に伴い、多くの従来ベンチマークでは性能飽和が生じており、最先端モデルを区別する能力が疑問視されている。一方、既存の高難度ベンチマークは、学問領域が狭い、回答形式が単純化されすぎている、データ汚染への脆弱性といった問題を抱えており、現実の科学的探求との間に忠実度ギャップが生じている。これらの課題に対処するため、我々は約800問のオリジナル問題で構成される大規模・高難度・学際的評価スイート「ATLAS(科学における論理的応用のためのAGI指向テストベッド)」を導入する。ドメイン専門家(博士号以上)によって開発されたATLASは、数学、物理学、化学、生物学、計算機科学、地球科学、材料科学の7つの核心的科学分野を網羅する。その主な特徴は以下の通りである:(1)高い独自性と汚染耐性:テストデータ漏洩を防ぐため、全ての問題を新規作成または実質的に改編;(2)学際的焦点:複数の科学分野にわたる知識統合と推論能力を評価する設計;(3)高忠実度回答:単純な多肢選択式ではなく、多段階推論やLaTeX形式の数式を含む複雑で開放的な回答を重視;(4)厳格な品質管理:専門家によるピアレビューと敵対的テストを多段階で実施し、問題の難易度・科学的価値・正確性を保証。さらに、複雑な回答を自動的かつ繊細に評価するため、LLM審査員パネルを用いた堅牢な評価パラダイムを提案する。主要モデルにおける予備結果は、高度な科学的推論能力を区別するATLASの有効性を示している。我々はATLASを、人工汎用知能への進歩を測る信頼性の高い「ものさし」を提供するため、長期的・オープン・コミュニティ主導のプラットフォームへ発展させる計画である。
English
The rapid advancement of Large Language Models (LLMs) has led to performance saturation on many established benchmarks, questioning their ability to distinguish frontier models. Concurrently, existing high-difficulty benchmarks often suffer from narrow disciplinary focus, oversimplified answer formats, and vulnerability to data contamination, creating a fidelity gap with real-world scientific inquiry. To address these challenges, we introduce ATLAS (AGI-Oriented Testbed for Logical Application in Science), a large-scale, high-difficulty, and cross-disciplinary evaluation suite composed of approximately 800 original problems. Developed by domain experts (PhD-level and above), ATLAS spans seven core scientific fields: mathematics, physics, chemistry, biology, computer science, earth science, and materials science. Its key features include: (1) High Originality and Contamination Resistance, with all questions newly created or substantially adapted to prevent test data leakage; (2) Cross-Disciplinary Focus, designed to assess models' ability to integrate knowledge and reason across scientific domains; (3) High-Fidelity Answers, prioritizing complex, open-ended answers involving multi-step reasoning and LaTeX-formatted expressions over simple multiple-choice questions; and (4) Rigorous Quality Control, employing a multi-stage process of expert peer review and adversarial testing to ensure question difficulty, scientific value, and correctness. We also propose a robust evaluation paradigm using a panel of LLM judges for automated, nuanced assessment of complex answers. Preliminary results on leading models demonstrate ATLAS's effectiveness in differentiating their advanced scientific reasoning capabilities. We plan to develop ATLAS into a long-term, open, community-driven platform to provide a reliable "ruler" for progress toward Artificial General Intelligence.