ATLAS : Un benchmark multidisciplinaire de haute difficulté pour le raisonnement scientifique de pointe
ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning
November 18, 2025
papers.authors: Hongwei Liu, Junnan Liu, Shudong Liu, Haodong Duan, Yuqiang Li, Mao Su, Xiaohong Liu, Guangtao Zhai, Xinyu Fang, Qianhong Ma, Taolin Zhang, Zihan Ma, Yufeng Zhao, Peiheng Zhou, Linchen Xiao, Wenlong Zhang, Shijie Zhou, Xingjian Ma, Siqi Sun, Jiaye Ge, Meng Li, Yuhong Liu, Jianxin Dong, Jiaying Li, Hui Wu, Hanwen Liang, Jintai Lin, Yanting Wang, Jie Dong, Tong Zhu, Tianfan Fu, Conghui He, Qi Zhang, Songyang Zhang, Lei Bai, Kai Chen
cs.AI
papers.abstract
Le progrès rapide des modèles de langage à grande échelle (LLM) a entraîné une saturation des performances sur de nombreux benchmarks établis, remettant en question leur capacité à distinguer les modèles de pointe. Parallèlement, les benchmarks existants à haute difficulté souffrent souvent d'un focus disciplinaire étroit, de formats de réponse trop simplifiés et d'une vulnérabilité à la contamination des données, créant un écart de fidélité avec la démarche scientifique réelle. Pour relever ces défis, nous présentons ATLAS (AGI-Oriented Testbed for Logical Application in Science), une suite d'évaluation à grande échelle, à haute difficulté et interdisciplinaire composée d'environ 800 problèmes originaux. Développé par des experts de domaine (niveau doctorat et au-delà), ATLAS couvre sept domaines scientifiques fondamentaux : les mathématiques, la physique, la chimie, la biologie, l'informatique, les sciences de la Terre et la science des matériaux. Ses principales caractéristiques incluent : (1) une Haute Originalité et une Résistance à la Contamination, toutes les questions étant nouvellement créées ou substantiellement adaptées pour prévenir les fuites de données de test ; (2) un Focus Interdisciplinaire, conçu pour évaluer la capacité des modèles à intégrer des connaissances et à raisonner à travers les domaines scientifiques ; (3) des Réponses à Haute Fidélité, privilégiant des réponses complexes et ouvertes impliquant un raisonnement en plusieurs étapes et des expressions formatées en LaTeX plutôt que de simples questions à choix multiples ; et (4) un Contrôle Qualité Rigoureux, employant un processus en plusieurs étapes d'examen par les pairs experts et de tests adversariaux pour garantir la difficulté des questions, leur valeur scientifique et leur exactitude. Nous proposons également un paradigme d'évaluation robuste utilisant un panel de juges LLM pour une évaluation automatisée et nuancée des réponses complexes. Les résultats préliminaires sur les modèles leaders démontrent l'efficacité d'ATLAS à différencier leurs capacités avancées de raisonnement scientifique. Nous prévoyons de développer ATLAS en une plateforme ouverte, communautaire et pérenne pour fournir une "règle" fiable mesurant les progrès vers l'Intelligence Artificielle Générale.
English
The rapid advancement of Large Language Models (LLMs) has led to performance saturation on many established benchmarks, questioning their ability to distinguish frontier models. Concurrently, existing high-difficulty benchmarks often suffer from narrow disciplinary focus, oversimplified answer formats, and vulnerability to data contamination, creating a fidelity gap with real-world scientific inquiry. To address these challenges, we introduce ATLAS (AGI-Oriented Testbed for Logical Application in Science), a large-scale, high-difficulty, and cross-disciplinary evaluation suite composed of approximately 800 original problems. Developed by domain experts (PhD-level and above), ATLAS spans seven core scientific fields: mathematics, physics, chemistry, biology, computer science, earth science, and materials science. Its key features include: (1) High Originality and Contamination Resistance, with all questions newly created or substantially adapted to prevent test data leakage; (2) Cross-Disciplinary Focus, designed to assess models' ability to integrate knowledge and reason across scientific domains; (3) High-Fidelity Answers, prioritizing complex, open-ended answers involving multi-step reasoning and LaTeX-formatted expressions over simple multiple-choice questions; and (4) Rigorous Quality Control, employing a multi-stage process of expert peer review and adversarial testing to ensure question difficulty, scientific value, and correctness. We also propose a robust evaluation paradigm using a panel of LLM judges for automated, nuanced assessment of complex answers. Preliminary results on leading models demonstrate ATLAS's effectiveness in differentiating their advanced scientific reasoning capabilities. We plan to develop ATLAS into a long-term, open, community-driven platform to provide a reliable "ruler" for progress toward Artificial General Intelligence.