ChatPaper.aiChatPaper

ATLAS: Een hoogcomplexe, multidisciplinaire benchmark voor grensverleggend wetenschappelijk redeneren

ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning

November 18, 2025
Auteurs: Hongwei Liu, Junnan Liu, Shudong Liu, Haodong Duan, Yuqiang Li, Mao Su, Xiaohong Liu, Guangtao Zhai, Xinyu Fang, Qianhong Ma, Taolin Zhang, Zihan Ma, Yufeng Zhao, Peiheng Zhou, Linchen Xiao, Wenlong Zhang, Shijie Zhou, Xingjian Ma, Siqi Sun, Jiaye Ge, Meng Li, Yuhong Liu, Jianxin Dong, Jiaying Li, Hui Wu, Hanwen Liang, Jintai Lin, Yanting Wang, Jie Dong, Tong Zhu, Tianfan Fu, Conghui He, Qi Zhang, Songyang Zhang, Lei Bai, Kai Chen
cs.AI

Samenvatting

De snelle vooruitgang van Large Language Models (LLM's) heeft geleid tot prestatieverzadiging op veel gevestigde benchmarks, wat hun vermogen om toonaangevende modellen te onderscheiden in twijfel trekt. Tegelijkertijd kampen bestaande benchmarks met een hoge moeilijkheidsgraad vaak met een nauwe disciplinaire focus, een te vereenvoudigde antwoordstructuur en kwetsbaarheid voor datacontaminatie, waardoor een kloof ontstaat met het real-world wetenschappelijk onderzoek. Om deze uitdagingen aan te pakken, introduceren wij ATLAS (AGI-Oriented Testbed for Logical Application in Science), een grootschalige, hoogcomplexe en interdisciplinaire evaluatieset bestaande uit ongeveer 800 originele problemen. Ontwikkeld door domeinexperts (promovendus-niveau en hoger), bestrijkt ATLAS zeven kernwetenschappelijke gebieden: wiskunde, natuurkunde, scheikunde, biologie, informatica, aardwetenschappen en materiaalkunde. De belangrijkste kenmerken zijn: (1) Hoge Originaliteit en Bestandheid tegen Contaminatie, waarbij alle vragen nieuw zijn gecreëerd of substantieel zijn aangepast om lekken van testdata te voorkomen; (2) Interdisciplinaire Focus, ontworpen om het vermogen van modellen om kennis te integreren en te redeneren over wetenschappelijke domeinen heen te beoordelen; (3) Hoogwaardige Antwoorden, met prioriteit voor complexe, open-einde antwoorden die meerstaps redeneren en LaTeX-geformatteerde expressies omvatten boven eenvoudige meerkeuzevragen; en (4) Strenge Kwaliteitscontrole, waarbij een meerfasenproces van expert-peerreview en adversarial testing wordt gebruikt om de vraagmoeilijkheid, wetenschappelijke waarde en correctheid te waarborgen. Wij stellen ook een robuust evaluatieparadigma voor dat gebruikmaakt van een panel van LLM-beoordelaars voor een geautomatiseerde, genuanceerde beoordeling van complexe antwoorden. Eerste resultaten op toonaangevende modellen tonen de effectiviteit van ATLAS aan in het differentiëren van hun geavanceerde wetenschappelijke redeneervermogens. Wij zijn van plan ATLAS te ontwikkelen tot een langdurig, open, gemeenschapsgedreven platform om een betrouwbare 'meetlat' te bieden voor de voortgang richting Artificiële Algemene Intelligentie.
English
The rapid advancement of Large Language Models (LLMs) has led to performance saturation on many established benchmarks, questioning their ability to distinguish frontier models. Concurrently, existing high-difficulty benchmarks often suffer from narrow disciplinary focus, oversimplified answer formats, and vulnerability to data contamination, creating a fidelity gap with real-world scientific inquiry. To address these challenges, we introduce ATLAS (AGI-Oriented Testbed for Logical Application in Science), a large-scale, high-difficulty, and cross-disciplinary evaluation suite composed of approximately 800 original problems. Developed by domain experts (PhD-level and above), ATLAS spans seven core scientific fields: mathematics, physics, chemistry, biology, computer science, earth science, and materials science. Its key features include: (1) High Originality and Contamination Resistance, with all questions newly created or substantially adapted to prevent test data leakage; (2) Cross-Disciplinary Focus, designed to assess models' ability to integrate knowledge and reason across scientific domains; (3) High-Fidelity Answers, prioritizing complex, open-ended answers involving multi-step reasoning and LaTeX-formatted expressions over simple multiple-choice questions; and (4) Rigorous Quality Control, employing a multi-stage process of expert peer review and adversarial testing to ensure question difficulty, scientific value, and correctness. We also propose a robust evaluation paradigm using a panel of LLM judges for automated, nuanced assessment of complex answers. Preliminary results on leading models demonstrate ATLAS's effectiveness in differentiating their advanced scientific reasoning capabilities. We plan to develop ATLAS into a long-term, open, community-driven platform to provide a reliable "ruler" for progress toward Artificial General Intelligence.
PDF142December 1, 2025