ATLAS: Um Benchmark de Alta Dificuldade e Multidisciplinar para o Raciocínio Científico de Fronteira

Resumo

O rápido avanço dos Modelos de Língua Grande (LLMs) levou à saturação de desempenho em muitos benchmarks estabelecidos, questionando sua capacidade de distinguir modelos de fronteira. Simultaneamente, os benchmarks existentes de alta dificuldade frequentemente sofrem com foco disciplinar restrito, formatos de resposta simplificados demais e vulnerabilidade à contaminação de dados, criando uma lacuna de fidelidade com a investigação científica do mundo real. Para enfrentar esses desafios, apresentamos o ATLAS (Banco de Testes Orientado para IAG para Aplicação Lógica na Ciência), um conjunto de avaliação em larga escala, de alta dificuldade e interdisciplinar, composto por aproximadamente 800 problemas originais. Desenvolvido por especialistas de domínio (nível de doutorado ou superior), o ATLAS abrange sete campos científicos centrais: matemática, física, química, biologia, ciência da computação, geociências e ciência dos materiais. Suas principais características incluem: (1) Alta Originalidade e Resistência à Contaminação, com todas as questões sendo recém-criadas ou substancialmente adaptadas para evitar vazamento de dados de teste; (2) Foco Interdisciplinar, projetado para avaliar a capacidade dos modelos de integrar conhecimento e raciocinar através de domínios científicos; (3) Respostas de Alta Fidelidade, priorizando respostas complexas e abertas envolvendo raciocínio multi-etapas e expressões formatadas em LaTeX em vez de simples questões de múltipla escolha; e (4) Controle de Qualidade Rigoroso, empregando um processo multi-estágio de revisão por pares especialistas e teste adversarial para garantir a dificuldade, o valor científico e a correção das questões. Também propomos um paradigma de avaliação robusto usando um painel de juízes baseados em LLM para uma avaliação automatizada e nuances de respostas complexas. Resultados preliminares em modelos líderes demonstram a eficácia do ATLAS em diferenciar suas capacidades avançadas de raciocínio científico. Planejamos desenvolver o ATLAS como uma plataforma de longo prazo, aberta e orientada pela comunidade para fornecer uma "régua" confiável para o progresso em direção à Inteligência Artificial Geral.

English

The rapid advancement of Large Language Models (LLMs) has led to performance saturation on many established benchmarks, questioning their ability to distinguish frontier models. Concurrently, existing high-difficulty benchmarks often suffer from narrow disciplinary focus, oversimplified answer formats, and vulnerability to data contamination, creating a fidelity gap with real-world scientific inquiry. To address these challenges, we introduce ATLAS (AGI-Oriented Testbed for Logical Application in Science), a large-scale, high-difficulty, and cross-disciplinary evaluation suite composed of approximately 800 original problems. Developed by domain experts (PhD-level and above), ATLAS spans seven core scientific fields: mathematics, physics, chemistry, biology, computer science, earth science, and materials science. Its key features include: (1) High Originality and Contamination Resistance, with all questions newly created or substantially adapted to prevent test data leakage; (2) Cross-Disciplinary Focus, designed to assess models' ability to integrate knowledge and reason across scientific domains; (3) High-Fidelity Answers, prioritizing complex, open-ended answers involving multi-step reasoning and LaTeX-formatted expressions over simple multiple-choice questions; and (4) Rigorous Quality Control, employing a multi-stage process of expert peer review and adversarial testing to ensure question difficulty, scientific value, and correctness. We also propose a robust evaluation paradigm using a panel of LLM judges for automated, nuanced assessment of complex answers. Preliminary results on leading models demonstrate ATLAS's effectiveness in differentiating their advanced scientific reasoning capabilities. We plan to develop ATLAS into a long-term, open, community-driven platform to provide a reliable "ruler" for progress toward Artificial General Intelligence.

ATLAS: Um Benchmark de Alta Dificuldade e Multidisciplinar para o Raciocínio Científico de Fronteira

ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning

Resumo

Support