ATLAS: Un Benchmark di Alta Difficoltà e Multidisciplinare per il Ragionamento Scientifico d'Avanguardia
ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning
November 18, 2025
Autori: Hongwei Liu, Junnan Liu, Shudong Liu, Haodong Duan, Yuqiang Li, Mao Su, Xiaohong Liu, Guangtao Zhai, Xinyu Fang, Qianhong Ma, Taolin Zhang, Zihan Ma, Yufeng Zhao, Peiheng Zhou, Linchen Xiao, Wenlong Zhang, Shijie Zhou, Xingjian Ma, Siqi Sun, Jiaye Ge, Meng Li, Yuhong Liu, Jianxin Dong, Jiaying Li, Hui Wu, Hanwen Liang, Jintai Lin, Yanting Wang, Jie Dong, Tong Zhu, Tianfan Fu, Conghui He, Qi Zhang, Songyang Zhang, Lei Bai, Kai Chen
cs.AI
Abstract
Il rapido avanzamento dei Large Language Model (LLM) ha portato a una saturazione delle prestazioni su molti benchmark consolidati, mettendo in discussione la loro capacità di distinguere i modelli all'avanguardia. Contemporaneamente, gli attuali benchmark ad alta difficoltà soffrono spesso di una focalizzazione disciplinare ristretta, di formati di risposta eccessivamente semplificati e di vulnerabilità alla contaminazione dei dati, creando un divario di fedeltà rispetto all'indagine scientifica reale. Per affrontare queste sfide, introduciamo ATLAS (AGI-Oriented Testbed for Logical Application in Science), una suite di valutazione su larga scala, ad alta difficoltà e interdisciplinare, composta da circa 800 problemi originali. Sviluppato da esperti di dominio (con titolo di dottorato di ricerca o superiore), ATLAS copre sette campi scientifici fondamentali: matematica, fisica, chimica, biologia, informatica, scienze della Terra e scienza dei materiali. Le sue caratteristiche principali includono: (1) Alta Originalità e Resistenza alla Contaminazione, con tutte le domande create ex-novo o sostanzialmente adattate per prevenire la fuoriuscita dei dati di test; (2) Focalizzazione Interdisciplinare, progettata per valutare la capacità dei modelli di integrare conoscenze e ragionare attraverso diversi domini scientifici; (3) Risposte ad Alta Fedeltà, che privilegiano risposte complesse e aperte, coinvolgenti ragionamenti multi-step ed espressioni formattate in LaTeX, rispetto a semplici domande a scelta multipla; e (4) Rigoroso Controllo di Qualità, che impiega un processo multi-stadio di revisione paritaria tra esperti e test avversariali per garantire la difficoltà delle domande, il loro valore scientifico e la correttezza. Proponiamo inoltre un paradigma di valutazione robusto che utilizza un panel di giudici LLM per una valutazione automatica e sfumata di risposte complesse. I risultati preliminari sui modelli leader dimostrano l'efficacia di ATLAS nel differenziare le loro capacità avanzate di ragionamento scientifico. Pianifichiamo di sviluppare ATLAS in una piattaforma a lungo termine, aperta e guidata dalla comunità, per fornire un "metro" affidabile per i progressi verso l'Intelligenza Artificiale Generale.
English
The rapid advancement of Large Language Models (LLMs) has led to performance saturation on many established benchmarks, questioning their ability to distinguish frontier models. Concurrently, existing high-difficulty benchmarks often suffer from narrow disciplinary focus, oversimplified answer formats, and vulnerability to data contamination, creating a fidelity gap with real-world scientific inquiry. To address these challenges, we introduce ATLAS (AGI-Oriented Testbed for Logical Application in Science), a large-scale, high-difficulty, and cross-disciplinary evaluation suite composed of approximately 800 original problems. Developed by domain experts (PhD-level and above), ATLAS spans seven core scientific fields: mathematics, physics, chemistry, biology, computer science, earth science, and materials science. Its key features include: (1) High Originality and Contamination Resistance, with all questions newly created or substantially adapted to prevent test data leakage; (2) Cross-Disciplinary Focus, designed to assess models' ability to integrate knowledge and reason across scientific domains; (3) High-Fidelity Answers, prioritizing complex, open-ended answers involving multi-step reasoning and LaTeX-formatted expressions over simple multiple-choice questions; and (4) Rigorous Quality Control, employing a multi-stage process of expert peer review and adversarial testing to ensure question difficulty, scientific value, and correctness. We also propose a robust evaluation paradigm using a panel of LLM judges for automated, nuanced assessment of complex answers. Preliminary results on leading models demonstrate ATLAS's effectiveness in differentiating their advanced scientific reasoning capabilities. We plan to develop ATLAS into a long-term, open, community-driven platform to provide a reliable "ruler" for progress toward Artificial General Intelligence.