ChatPaper.aiChatPaper

ATLAS: Un punto de referencia multidisciplinario de alta dificultad para el razonamiento científico de vanguardia

ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning

November 18, 2025
Autores: Hongwei Liu, Junnan Liu, Shudong Liu, Haodong Duan, Yuqiang Li, Mao Su, Xiaohong Liu, Guangtao Zhai, Xinyu Fang, Qianhong Ma, Taolin Zhang, Zihan Ma, Yufeng Zhao, Peiheng Zhou, Linchen Xiao, Wenlong Zhang, Shijie Zhou, Xingjian Ma, Siqi Sun, Jiaye Ge, Meng Li, Yuhong Liu, Jianxin Dong, Jiaying Li, Hui Wu, Hanwen Liang, Jintai Lin, Yanting Wang, Jie Dong, Tong Zhu, Tianfan Fu, Conghui He, Qi Zhang, Songyang Zhang, Lei Bai, Kai Chen
cs.AI

Resumen

El rápido avance de los Modelos de Lenguaje a Gran Escala (LLMs) ha provocado una saturación en el rendimiento en muchos puntos de referencia establecidos, lo que cuestiona su capacidad para distinguir modelos de vanguardia. Simultáneamente, los puntos de referencia existentes de alta dificultad suelen adolecer de un enfoque disciplinario estrecho, formatos de respuesta simplificados y vulnerabilidad a la contaminación de datos, creando una brecha de fidelidad con la investigación científica del mundo real. Para abordar estos desafíos, presentamos ATLAS (Banco de Pruebas Orientado a la AGI para la Aplicación Lógica en la Ciencia), un conjunto de evaluación a gran escala, de alta dificultad y multidisciplinar compuesto por aproximadamente 800 problemas originales. Desarrollado por expertos de dominio (con nivel de doctorado o superior), ATLAS abarca siete campos científicos principales: matemáticas, física, química, biología, informática, ciencias de la tierra y ciencia de materiales. Sus características clave incluyen: (1) Alta Originalidad y Resistencia a la Contaminación, ya que todas las preguntas son de nueva creación o están sustancialmente adaptadas para evitar la filtración de datos de prueba; (2) Enfoque Multidisciplinar, diseñado para evaluar la capacidad de los modelos para integrar conocimientos y razonar a través de dominios científicos; (3) Respuestas de Alta Fidelidad, priorizando respuestas complejas y abiertas que implican razonamiento multi-etapa y expresiones formateadas en LaTeX sobre simples preguntas de opción múltiple; y (4) Control de Calidad Riguroso, empleando un proceso multi-etapa de revisión por pares expertos y pruebas adversarias para garantizar la dificultad de las preguntas, su valor científico y su corrección. También proponemos un paradigma de evaluación robusto utilizando un panel de jueces basados en LLMs para una evaluación automatizada y matizada de respuestas complejas. Los resultados preliminares en modelos líderes demuestran la efectividad de ATLAS para diferenciar sus capacidades avanzadas de razonamiento científico. Planeamos desarrollar ATLAS como una plataforma abierta, a largo plazo y impulsada por la comunidad para proporcionar una "regla" confiable del progreso hacia la Inteligencia Artificial General.
English
The rapid advancement of Large Language Models (LLMs) has led to performance saturation on many established benchmarks, questioning their ability to distinguish frontier models. Concurrently, existing high-difficulty benchmarks often suffer from narrow disciplinary focus, oversimplified answer formats, and vulnerability to data contamination, creating a fidelity gap with real-world scientific inquiry. To address these challenges, we introduce ATLAS (AGI-Oriented Testbed for Logical Application in Science), a large-scale, high-difficulty, and cross-disciplinary evaluation suite composed of approximately 800 original problems. Developed by domain experts (PhD-level and above), ATLAS spans seven core scientific fields: mathematics, physics, chemistry, biology, computer science, earth science, and materials science. Its key features include: (1) High Originality and Contamination Resistance, with all questions newly created or substantially adapted to prevent test data leakage; (2) Cross-Disciplinary Focus, designed to assess models' ability to integrate knowledge and reason across scientific domains; (3) High-Fidelity Answers, prioritizing complex, open-ended answers involving multi-step reasoning and LaTeX-formatted expressions over simple multiple-choice questions; and (4) Rigorous Quality Control, employing a multi-stage process of expert peer review and adversarial testing to ensure question difficulty, scientific value, and correctness. We also propose a robust evaluation paradigm using a panel of LLM judges for automated, nuanced assessment of complex answers. Preliminary results on leading models demonstrate ATLAS's effectiveness in differentiating their advanced scientific reasoning capabilities. We plan to develop ATLAS into a long-term, open, community-driven platform to provide a reliable "ruler" for progress toward Artificial General Intelligence.
PDF142December 1, 2025