NewtonBench : Évaluation de la découverte de lois scientifiques généralisables par des agents LLM
NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents
October 8, 2025
papers.authors: Tianshi Zheng, Kelvin Kiu-Wai Tam, Newt Hue-Nam K. Nguyen, Baixuan Xu, Zhaowei Wang, Jiayang Cheng, Hong Ting Tsang, Weiqi Wang, Jiaxin Bai, Tianqing Fang, Yangqiu Song, Ginny Y. Wong, Simon See
cs.AI
papers.abstract
Les grands modèles de langage émergent comme des outils puissants pour la découverte de lois scientifiques, un défi fondamental dans la science pilotée par l'IA. Cependant, les benchmarks existants pour cette tâche souffrent d'un trilemme méthodologique fondamental, imposant un compromis entre pertinence scientifique, évolutivité et résistance à la mémorisation. De plus, ils simplifient à l'excès la découverte en la réduisant à un ajustement statique de fonctions, ne parvenant pas à capturer le processus scientifique authentique consistant à révéler des lois intégrées à travers l'exploration interactive de systèmes modèles complexes. Pour combler ces lacunes critiques, nous introduisons NewtonBench, un benchmark comprenant 324 tâches de découverte de lois scientifiques réparties dans 12 domaines de la physique. Notre conception atténue le trilemme d'évaluation en utilisant des décalages métaphysiques - des altérations systématiques des lois canoniques - pour générer une vaste gamme de problèmes qui sont évolutifs, scientifiquement pertinents et résistants à la mémorisation. Par ailleurs, nous élevons l'évaluation de l'ajustement statique de fonctions à la découverte interactive de modèles, exigeant que les agents sondent expérimentalement des systèmes complexes simulés pour découvrir des principes cachés. Nos expériences approfondies révèlent une capacité claire mais fragile de découverte dans les LLM de pointe : cette capacité se dégrade rapidement avec l'augmentation de la complexité du système et montre une extrême sensibilité au bruit observationnel. Notamment, nous mettons en évidence un effet paradoxal de l'assistance par outils : fournir un interpréteur de code peut entraver les modèles les plus performants en induisant un passage prématuré de l'exploration à l'exploitation, les amenant à se contenter de solutions sous-optimales. Ces résultats démontrent que la découverte robuste et généralisable dans des environnements complexes et interactifs reste le défi central. En fournissant un banc d'essai évolutif, robuste et scientifiquement authentique, NewtonBench offre un outil crucial pour mesurer les véritables progrès et guider le développement de la prochaine génération d'agents IA capables de découvertes scientifiques authentiques.
English
Large language models are emerging as powerful tools for scientific law
discovery, a foundational challenge in AI-driven science. However, existing
benchmarks for this task suffer from a fundamental methodological trilemma,
forcing a trade-off between scientific relevance, scalability, and resistance
to memorization. Furthermore, they oversimplify discovery as static function
fitting, failing to capture the authentic scientific process of uncovering
embedded laws through the interactive exploration of complex model systems. To
address these critical gaps, we introduce NewtonBench, a benchmark comprising
324 scientific law discovery tasks across 12 physics domains. Our design
mitigates the evaluation trilemma by using metaphysical shifts - systematic
alterations of canonical laws - to generate a vast suite of problems that are
scalable, scientifically relevant, and memorization-resistant. Moreover, we
elevate the evaluation from static function fitting to interactive model
discovery, requiring agents to experimentally probe simulated complex systems
to uncover hidden principles. Our extensive experiment reveals a clear but
fragile capability for discovery in frontier LLMs: this ability degrades
precipitously with increasing system complexity and exhibits extreme
sensitivity to observational noise. Notably, we uncover a paradoxical effect of
tool assistance: providing a code interpreter can hinder more capable models by
inducing a premature shift from exploration to exploitation, causing them to
satisfice on suboptimal solutions. These results demonstrate that robust,
generalizable discovery in complex, interactive environments remains the core
challenge. By providing a scalable, robust, and scientifically authentic
testbed, NewtonBench offers a crucial tool for measuring true progress and
guiding the development of next-generation AI agents capable of genuine
scientific discovery.