ATLAS: 첨단 과학적 추론을 위한 고난이도 다학제적 벤치마크
ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning
November 18, 2025
저자: Hongwei Liu, Junnan Liu, Shudong Liu, Haodong Duan, Yuqiang Li, Mao Su, Xiaohong Liu, Guangtao Zhai, Xinyu Fang, Qianhong Ma, Taolin Zhang, Zihan Ma, Yufeng Zhao, Peiheng Zhou, Linchen Xiao, Wenlong Zhang, Shijie Zhou, Xingjian Ma, Siqi Sun, Jiaye Ge, Meng Li, Yuhong Liu, Jianxin Dong, Jiaying Li, Hui Wu, Hanwen Liang, Jintai Lin, Yanting Wang, Jie Dong, Tong Zhu, Tianfan Fu, Conghui He, Qi Zhang, Songyang Zhang, Lei Bai, Kai Chen
cs.AI
초록
대규모 언어 모델(LLM)의 급속한 발전으로 인해 많은 기존 벤치마크에서 성능 포화 현상이 나타나며, 첨단 모델을 변별하는 능력에 대한 의문이 제기되고 있습니다. 동시에 기존 고난이도 벤치마크는 종종 협소한 학문적 범위, 지나치게 단순화된 답변 형식, 데이터 오염에 대한 취약성 등의 문제를 지녀 실제 과학적 탐구 과정과 충실도 격차를 보입니다. 이러한 문제를 해결하기 위해 우리는 약 800개의 독창적인 문제로 구성된 대규모 고난이도 융합 학제 평가 패키지인 ATLAS(AGI-Oriented Testbed for Logical Application in Science)를 소개합니다. 해당 분야 전문가(박사 수준 이상)들이 개발한 ATLAS는 수학, 물리학, 화학, 생물학, 컴퓨터 과학, 지구 과학, 재료 과학 등 7개 핵심 과학 분야를 아우릅니다. 주요 특징은 다음과 같습니다: (1) 높은 독창성과 오염 저항성: 모든 문제가 새롭게 생성되거나 테스트 데이터 누출을 방지하기 위해 실질적으로 개선됨; (2) 융합 학제적 초점: 다양한 과학 분야 간 지식 통합 및 추론 능력 평가를 위해 설계됨; (3) 높은 충실도의 답변: 단순한 객관식 문항보다 다단계 추론과 LaTeX 형식의 표현을 포함하는 복잡하고 개방형 답변을 우선시함; (4) 엄격한 품질 관리: 전문가 동료 검토와 적대적 테스트의 다단계 과정을 통해 문제 난이도, 과학적 가치 및 정확성을 보장. 또한 우리는 복잡한 답변을 자동적이고 세밀하게 평가하기 위해 LLM 평가자 패널을 활용한 강력한 평가 패러다임을 제안합니다. 선도적인 모델에 대한 예비 결과는 ATLAS가 고급 과학적 추론 능력을 변별하는 데 효과적임을 보여줍니다. 우리는 ATLAS를 장기적이고 개방적이며 커뮤니티 주도형 플랫폼으로 발전시켜 인공 일반 지능(AGI)으로의 진전을 위한 신뢰할 수 있는 '척도'를 제공할 계획입니다.
English
The rapid advancement of Large Language Models (LLMs) has led to performance saturation on many established benchmarks, questioning their ability to distinguish frontier models. Concurrently, existing high-difficulty benchmarks often suffer from narrow disciplinary focus, oversimplified answer formats, and vulnerability to data contamination, creating a fidelity gap with real-world scientific inquiry. To address these challenges, we introduce ATLAS (AGI-Oriented Testbed for Logical Application in Science), a large-scale, high-difficulty, and cross-disciplinary evaluation suite composed of approximately 800 original problems. Developed by domain experts (PhD-level and above), ATLAS spans seven core scientific fields: mathematics, physics, chemistry, biology, computer science, earth science, and materials science. Its key features include: (1) High Originality and Contamination Resistance, with all questions newly created or substantially adapted to prevent test data leakage; (2) Cross-Disciplinary Focus, designed to assess models' ability to integrate knowledge and reason across scientific domains; (3) High-Fidelity Answers, prioritizing complex, open-ended answers involving multi-step reasoning and LaTeX-formatted expressions over simple multiple-choice questions; and (4) Rigorous Quality Control, employing a multi-stage process of expert peer review and adversarial testing to ensure question difficulty, scientific value, and correctness. We also propose a robust evaluation paradigm using a panel of LLM judges for automated, nuanced assessment of complex answers. Preliminary results on leading models demonstrate ATLAS's effectiveness in differentiating their advanced scientific reasoning capabilities. We plan to develop ATLAS into a long-term, open, community-driven platform to provide a reliable "ruler" for progress toward Artificial General Intelligence.