ChatPaper.aiChatPaper

ATLAS: Высокосложный междисциплинарный эталон для проверки передового научного мышления

ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning

November 18, 2025
Авторы: Hongwei Liu, Junnan Liu, Shudong Liu, Haodong Duan, Yuqiang Li, Mao Su, Xiaohong Liu, Guangtao Zhai, Xinyu Fang, Qianhong Ma, Taolin Zhang, Zihan Ma, Yufeng Zhao, Peiheng Zhou, Linchen Xiao, Wenlong Zhang, Shijie Zhou, Xingjian Ma, Siqi Sun, Jiaye Ge, Meng Li, Yuhong Liu, Jianxin Dong, Jiaying Li, Hui Wu, Hanwen Liang, Jintai Lin, Yanting Wang, Jie Dong, Tong Zhu, Tianfan Fu, Conghui He, Qi Zhang, Songyang Zhang, Lei Bai, Kai Chen
cs.AI

Аннотация

Быстрое развитие больших языковых моделей (LLM) привело к насыщению их производительности на многих существующих тестовых наборах, что ставит под вопрос способность этих тестов различать передовые модели. В то же время современные наборы задач повышенной сложности часто страдают от узкой дисциплинарной направленности, упрощенных форматов ответов и уязвимости к загрязнению данных, создавая разрыв с реальной научной практикой. Для решения этих проблем мы представляем ATLAS (AGI-Oriented Testbed for Logical Application in Science) — масштабный, сложный и междисциплинарный оценочный комплекс, состоящий из приблизительно 800 оригинальных задач. Разработанный экспертами (уровня PhD и выше), ATLAS охватывает семь ключевых научных областей: математику, физику, химию, биологию, информатику, науки о Земле и материаловедение. Его основные особенности включают: (1) Высокую оригинальность и устойчивость к загрязнению данных — все вопросы созданы заново или существенно адаптированы для предотвращения утечки тестовых данных; (2) Междисциплинарную направленность, предназначенную для оценки способности моделей интегрировать знания и рассуждать в различных научных областях; (3) Высокую достоверность ответов с приоритетом сложных, открытых ответов, требующих многошаговых рассуждений и выражений в формате LaTeX, вместо простых вопросов с множественным выбором; и (4) Строгий контроль качества с использованием многоэтапного процесса экспертной оценки и адверсарного тестирования для обеспечения сложности, научной ценности и корректности вопросов. Мы также предлагаем надежную парадигму оценки с использованием группы LLM-судей для автоматизированного, нюансированного оценивания сложных ответов. Предварительные результаты тестирования ведущих моделей демонстрируют эффективность ATLAS в дифференциации их продвинутых научных reasoning-способностей. Мы планируем развивать ATLAS в долгосрочную, открытую, управляемую сообществом платформу для обеспечения надежного «измерительного инструмента» прогресса на пути к искусственному общему интеллекту.
English
The rapid advancement of Large Language Models (LLMs) has led to performance saturation on many established benchmarks, questioning their ability to distinguish frontier models. Concurrently, existing high-difficulty benchmarks often suffer from narrow disciplinary focus, oversimplified answer formats, and vulnerability to data contamination, creating a fidelity gap with real-world scientific inquiry. To address these challenges, we introduce ATLAS (AGI-Oriented Testbed for Logical Application in Science), a large-scale, high-difficulty, and cross-disciplinary evaluation suite composed of approximately 800 original problems. Developed by domain experts (PhD-level and above), ATLAS spans seven core scientific fields: mathematics, physics, chemistry, biology, computer science, earth science, and materials science. Its key features include: (1) High Originality and Contamination Resistance, with all questions newly created or substantially adapted to prevent test data leakage; (2) Cross-Disciplinary Focus, designed to assess models' ability to integrate knowledge and reason across scientific domains; (3) High-Fidelity Answers, prioritizing complex, open-ended answers involving multi-step reasoning and LaTeX-formatted expressions over simple multiple-choice questions; and (4) Rigorous Quality Control, employing a multi-stage process of expert peer review and adversarial testing to ensure question difficulty, scientific value, and correctness. We also propose a robust evaluation paradigm using a panel of LLM judges for automated, nuanced assessment of complex answers. Preliminary results on leading models demonstrate ATLAS's effectiveness in differentiating their advanced scientific reasoning capabilities. We plan to develop ATLAS into a long-term, open, community-driven platform to provide a reliable "ruler" for progress toward Artificial General Intelligence.
PDF142December 1, 2025