ATLAS: Ein anspruchsvoller, multidisziplinärer Benchmark für wissenschaftliches Spitzenreasoning
ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning
November 18, 2025
papers.authors: Hongwei Liu, Junnan Liu, Shudong Liu, Haodong Duan, Yuqiang Li, Mao Su, Xiaohong Liu, Guangtao Zhai, Xinyu Fang, Qianhong Ma, Taolin Zhang, Zihan Ma, Yufeng Zhao, Peiheng Zhou, Linchen Xiao, Wenlong Zhang, Shijie Zhou, Xingjian Ma, Siqi Sun, Jiaye Ge, Meng Li, Yuhong Liu, Jianxin Dong, Jiaying Li, Hui Wu, Hanwen Liang, Jintai Lin, Yanting Wang, Jie Dong, Tong Zhu, Tianfan Fu, Conghui He, Qi Zhang, Songyang Zhang, Lei Bai, Kai Chen
cs.AI
papers.abstract
Die rasante Entwicklung großer Sprachmodelle (LLM) hat zu einer Leistungssättigung auf vielen etablierten Benchmarks geführt, was deren Fähigkeit infrage stellt, fortgeschrittene Modelle zu unterscheiden. Gleichzeitig leiden bestehende Benchmarks mit hohem Schwierigkeitsgrad oft unter einem engen disziplinären Fokus, übervereinfachten Antwortformaten und einer Anfälligkeit für Datenkontamination, was eine Treuekluft zur realen wissenschaftlichen Forschung erzeugt. Um diese Herausforderungen zu bewältigen, stellen wir ATLAS (AGI-Oriented Testbed for Logical Application in Science) vor, eine groß angelegte, hochschwierige und disziplinübergreifende Evaluierungssuite, die aus etwa 800 originären Problemen besteht. Entwickelt von Fachexperten (Promotionsniveau und höher), erstreckt sich ATLAS über sieben zentrale wissenschaftliche Felder: Mathematik, Physik, Chemie, Biologie, Informatik, Geowissenschaften und Materialwissenschaften. Seine Hauptmerkmale umfassen: (1) Hohe Originalität und Widerstandsfähigkeit gegen Kontamination, da alle Fragen neu erstellt oder substanziell angepasst wurden, um Testdatenlecks zu verhindern; (2) Disziplinübergreifender Fokus, konzipiert um die Fähigkeit der Modelle zu bewerten, Wissen zu integrieren und disziplinübergreifend zu schlussfolgern; (3) Hochwertige Antworten, die komplexe, offene Antworten mit mehrstufiger Argumentation und LaTeX-formatierten Ausdrücken priorisieren anstatt einfacher Multiple-Choice-Fragen; und (4) Strenge Qualitätskontrolle, die einen mehrstufigen Prozess mit Experten-Begutachtung und adversarieller Testung einsetzt, um Schwierigkeitsgrad, wissenschaftlichen Wert und Korrektheit der Fragen zu gewährleisten. Wir schlagen zudem ein robustes Evaluierungsparadigma vor, das ein Gremium von LLM-Beurteilern zur automatisierten, nuancierten Bewertung komplexer Antworten nutzt. Erste Ergebnisse mit führenden Modellen demonstrieren die Wirksamkeit von ATLAS, deren fortgeschrittene wissenschaftliche Denkfähigkeiten zu differenzieren. Wir planen, ATLAS zu einer langfristigen, offenen, gemeinschaftsgesteuerten Plattform zu entwickeln, um einen verlässlichen "Maßstab" für den Fortschritt hin zu einer Künstlichen Allgemeinen Intelligenz zu bieten.
English
The rapid advancement of Large Language Models (LLMs) has led to performance saturation on many established benchmarks, questioning their ability to distinguish frontier models. Concurrently, existing high-difficulty benchmarks often suffer from narrow disciplinary focus, oversimplified answer formats, and vulnerability to data contamination, creating a fidelity gap with real-world scientific inquiry. To address these challenges, we introduce ATLAS (AGI-Oriented Testbed for Logical Application in Science), a large-scale, high-difficulty, and cross-disciplinary evaluation suite composed of approximately 800 original problems. Developed by domain experts (PhD-level and above), ATLAS spans seven core scientific fields: mathematics, physics, chemistry, biology, computer science, earth science, and materials science. Its key features include: (1) High Originality and Contamination Resistance, with all questions newly created or substantially adapted to prevent test data leakage; (2) Cross-Disciplinary Focus, designed to assess models' ability to integrate knowledge and reason across scientific domains; (3) High-Fidelity Answers, prioritizing complex, open-ended answers involving multi-step reasoning and LaTeX-formatted expressions over simple multiple-choice questions; and (4) Rigorous Quality Control, employing a multi-stage process of expert peer review and adversarial testing to ensure question difficulty, scientific value, and correctness. We also propose a robust evaluation paradigm using a panel of LLM judges for automated, nuanced assessment of complex answers. Preliminary results on leading models demonstrate ATLAS's effectiveness in differentiating their advanced scientific reasoning capabilities. We plan to develop ATLAS into a long-term, open, community-driven platform to provide a reliable "ruler" for progress toward Artificial General Intelligence.