NewtonBench: Avaliação da Descoberta de Leis Científicas Generalizáveis em Agentes de LLM
NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents
October 8, 2025
Autores: Tianshi Zheng, Kelvin Kiu-Wai Tam, Newt Hue-Nam K. Nguyen, Baixuan Xu, Zhaowei Wang, Jiayang Cheng, Hong Ting Tsang, Weiqi Wang, Jiaxin Bai, Tianqing Fang, Yangqiu Song, Ginny Y. Wong, Simon See
cs.AI
Resumo
Modelos de linguagem de grande escala estão emergindo como ferramentas poderosas para a descoberta de leis científicas, um desafio fundamental na ciência impulsionada por IA. No entanto, os benchmarks existentes para essa tarefa sofrem de um trilema metodológico fundamental, forçando uma escolha entre relevância científica, escalabilidade e resistência à memorização. Além disso, eles simplificam excessivamente a descoberta como um ajuste estático de funções, falhando em capturar o processo científico autêntico de revelar leis embutidas por meio da exploração interativa de sistemas de modelos complexos. Para abordar essas lacunas críticas, introduzimos o NewtonBench, um benchmark composto por 324 tarefas de descoberta de leis científicas em 12 domínios da física. Nosso projeto mitiga o trilema de avaliação utilizando mudanças metafísicas - alterações sistemáticas de leis canônicas - para gerar uma vasta gama de problemas que são escaláveis, cientificamente relevantes e resistentes à memorização. Além disso, elevamos a avaliação do ajuste estático de funções para a descoberta interativa de modelos, exigindo que os agentes investiguem experimentalmente sistemas complexos simulados para descobrir princípios ocultos. Nossos experimentos extensivos revelam uma capacidade clara, mas frágil, de descoberta em LLMs de ponta: essa habilidade se degrada rapidamente com o aumento da complexidade do sistema e exibe extrema sensibilidade ao ruído observacional. Notavelmente, descobrimos um efeito paradoxal da assistência por ferramentas: fornecer um interpretador de código pode prejudicar modelos mais capazes ao induzir uma mudança prematura da exploração para a exploração, fazendo com que se satisfaçam com soluções subótimas. Esses resultados demonstram que a descoberta robusta e generalizável em ambientes complexos e interativos permanece o desafio central. Ao fornecer um ambiente de teste escalável, robusto e cientificamente autêntico, o NewtonBench oferece uma ferramenta crucial para medir o progresso real e guiar o desenvolvimento de agentes de IA de próxima geração capazes de genuína descoberta científica.
English
Large language models are emerging as powerful tools for scientific law
discovery, a foundational challenge in AI-driven science. However, existing
benchmarks for this task suffer from a fundamental methodological trilemma,
forcing a trade-off between scientific relevance, scalability, and resistance
to memorization. Furthermore, they oversimplify discovery as static function
fitting, failing to capture the authentic scientific process of uncovering
embedded laws through the interactive exploration of complex model systems. To
address these critical gaps, we introduce NewtonBench, a benchmark comprising
324 scientific law discovery tasks across 12 physics domains. Our design
mitigates the evaluation trilemma by using metaphysical shifts - systematic
alterations of canonical laws - to generate a vast suite of problems that are
scalable, scientifically relevant, and memorization-resistant. Moreover, we
elevate the evaluation from static function fitting to interactive model
discovery, requiring agents to experimentally probe simulated complex systems
to uncover hidden principles. Our extensive experiment reveals a clear but
fragile capability for discovery in frontier LLMs: this ability degrades
precipitously with increasing system complexity and exhibits extreme
sensitivity to observational noise. Notably, we uncover a paradoxical effect of
tool assistance: providing a code interpreter can hinder more capable models by
inducing a premature shift from exploration to exploitation, causing them to
satisfice on suboptimal solutions. These results demonstrate that robust,
generalizable discovery in complex, interactive environments remains the core
challenge. By providing a scalable, robust, and scientifically authentic
testbed, NewtonBench offers a crucial tool for measuring true progress and
guiding the development of next-generation AI agents capable of genuine
scientific discovery.