NewtonBench : Évaluation de la découverte de lois scientifiques généralisables par des agents LLM

papers.abstract

Les grands modèles de langage émergent comme des outils puissants pour la découverte de lois scientifiques, un défi fondamental dans la science pilotée par l'IA. Cependant, les benchmarks existants pour cette tâche souffrent d'un trilemme méthodologique fondamental, imposant un compromis entre pertinence scientifique, évolutivité et résistance à la mémorisation. De plus, ils simplifient à l'excès la découverte en la réduisant à un ajustement statique de fonctions, ne parvenant pas à capturer le processus scientifique authentique consistant à révéler des lois intégrées à travers l'exploration interactive de systèmes modèles complexes. Pour combler ces lacunes critiques, nous introduisons NewtonBench, un benchmark comprenant 324 tâches de découverte de lois scientifiques réparties dans 12 domaines de la physique. Notre conception atténue le trilemme d'évaluation en utilisant des décalages métaphysiques - des altérations systématiques des lois canoniques - pour générer une vaste gamme de problèmes qui sont évolutifs, scientifiquement pertinents et résistants à la mémorisation. Par ailleurs, nous élevons l'évaluation de l'ajustement statique de fonctions à la découverte interactive de modèles, exigeant que les agents sondent expérimentalement des systèmes complexes simulés pour découvrir des principes cachés. Nos expériences approfondies révèlent une capacité claire mais fragile de découverte dans les LLM de pointe : cette capacité se dégrade rapidement avec l'augmentation de la complexité du système et montre une extrême sensibilité au bruit observationnel. Notamment, nous mettons en évidence un effet paradoxal de l'assistance par outils : fournir un interpréteur de code peut entraver les modèles les plus performants en induisant un passage prématuré de l'exploration à l'exploitation, les amenant à se contenter de solutions sous-optimales. Ces résultats démontrent que la découverte robuste et généralisable dans des environnements complexes et interactifs reste le défi central. En fournissant un banc d'essai évolutif, robuste et scientifiquement authentique, NewtonBench offre un outil crucial pour mesurer les véritables progrès et guider le développement de la prochaine génération d'agents IA capables de découvertes scientifiques authentiques.

English

Large language models are emerging as powerful tools for scientific law discovery, a foundational challenge in AI-driven science. However, existing benchmarks for this task suffer from a fundamental methodological trilemma, forcing a trade-off between scientific relevance, scalability, and resistance to memorization. Furthermore, they oversimplify discovery as static function fitting, failing to capture the authentic scientific process of uncovering embedded laws through the interactive exploration of complex model systems. To address these critical gaps, we introduce NewtonBench, a benchmark comprising 324 scientific law discovery tasks across 12 physics domains. Our design mitigates the evaluation trilemma by using metaphysical shifts - systematic alterations of canonical laws - to generate a vast suite of problems that are scalable, scientifically relevant, and memorization-resistant. Moreover, we elevate the evaluation from static function fitting to interactive model discovery, requiring agents to experimentally probe simulated complex systems to uncover hidden principles. Our extensive experiment reveals a clear but fragile capability for discovery in frontier LLMs: this ability degrades precipitously with increasing system complexity and exhibits extreme sensitivity to observational noise. Notably, we uncover a paradoxical effect of tool assistance: providing a code interpreter can hinder more capable models by inducing a premature shift from exploration to exploitation, causing them to satisfice on suboptimal solutions. These results demonstrate that robust, generalizable discovery in complex, interactive environments remains the core challenge. By providing a scalable, robust, and scientifically authentic testbed, NewtonBench offers a crucial tool for measuring true progress and guiding the development of next-generation AI agents capable of genuine scientific discovery.

NewtonBench : Évaluation de la découverte de lois scientifiques généralisables par des agents LLM

NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents

papers.abstract

Support