NewtonBench: Benchmarking van generaliseerbare wetenschappelijke wetontdekking in LLM-agenten
NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents
October 8, 2025
Auteurs: Tianshi Zheng, Kelvin Kiu-Wai Tam, Newt Hue-Nam K. Nguyen, Baixuan Xu, Zhaowei Wang, Jiayang Cheng, Hong Ting Tsang, Weiqi Wang, Jiaxin Bai, Tianqing Fang, Yangqiu Song, Ginny Y. Wong, Simon See
cs.AI
Samenvatting
Grote taalmodellen ontwikkelen zich als krachtige hulpmiddelen voor het ontdekken van wetenschappelijke wetten, een fundamentele uitdaging in AI-gestuurde wetenschap. Bestaande benchmarks voor deze taak kampen echter met een fundamenteel methodologisch trilemma, waardoor een afweging moet worden gemaakt tussen wetenschappelijke relevantie, schaalbaarheid en weerstand tegen memorisatie. Bovendien vereenvoudigen ze ontdekking te veel als statische functiebenadering, waardoor het authentieke wetenschappelijke proces van het blootleggen van ingebedde wetten door interactieve verkenning van complexe modelsystemen niet wordt vastgelegd. Om deze kritieke tekortkomingen aan te pakken, introduceren we NewtonBench, een benchmark bestaande uit 324 taken voor het ontdekken van wetenschappelijke wetten in 12 fysicadomeinen. Ons ontwerp verlicht het evaluatietrilemma door gebruik te maken van metafysische verschuivingen - systematische aanpassingen van canonieke wetten - om een uitgebreide reeks problemen te genereren die schaalbaar, wetenschappelijk relevant en memorisatiebestendig zijn. Bovendien verheffen we de evaluatie van statische functiebenadering naar interactief modelontdekking, waarbij agents experimenteel gesimuleerde complexe systemen moeten verkennen om verborgen principes te ontrafelen. Onze uitgebreide experimenten onthullen een duidelijke maar kwetsbare ontdekkingscapaciteit in geavanceerde taalmodellen: dit vermogen degradeert snel bij toenemende systeemcomplexiteit en vertoont extreme gevoeligheid voor observationele ruis. Opmerkelijk is dat we een paradoxaal effect van toolondersteuning ontdekken: het aanbieden van een code-interpreter kan capabelere modellen hinderen door een voortijdige verschuiving van exploratie naar exploitatie te veroorzaken, waardoor ze genoegen nemen met suboptimale oplossingen. Deze resultaten tonen aan dat robuuste, generaliseerbare ontdekking in complexe, interactieve omgevingen de kernuitdaging blijft. Door een schaalbare, robuuste en wetenschappelijk authentieke testomgeving te bieden, biedt NewtonBench een cruciaal hulpmiddel om echte vooruitgang te meten en de ontwikkeling van volgende generatie AI-agents te begeleiden die in staat zijn tot authentieke wetenschappelijke ontdekking.
English
Large language models are emerging as powerful tools for scientific law
discovery, a foundational challenge in AI-driven science. However, existing
benchmarks for this task suffer from a fundamental methodological trilemma,
forcing a trade-off between scientific relevance, scalability, and resistance
to memorization. Furthermore, they oversimplify discovery as static function
fitting, failing to capture the authentic scientific process of uncovering
embedded laws through the interactive exploration of complex model systems. To
address these critical gaps, we introduce NewtonBench, a benchmark comprising
324 scientific law discovery tasks across 12 physics domains. Our design
mitigates the evaluation trilemma by using metaphysical shifts - systematic
alterations of canonical laws - to generate a vast suite of problems that are
scalable, scientifically relevant, and memorization-resistant. Moreover, we
elevate the evaluation from static function fitting to interactive model
discovery, requiring agents to experimentally probe simulated complex systems
to uncover hidden principles. Our extensive experiment reveals a clear but
fragile capability for discovery in frontier LLMs: this ability degrades
precipitously with increasing system complexity and exhibits extreme
sensitivity to observational noise. Notably, we uncover a paradoxical effect of
tool assistance: providing a code interpreter can hinder more capable models by
inducing a premature shift from exploration to exploitation, causing them to
satisfice on suboptimal solutions. These results demonstrate that robust,
generalizable discovery in complex, interactive environments remains the core
challenge. By providing a scalable, robust, and scientifically authentic
testbed, NewtonBench offers a crucial tool for measuring true progress and
guiding the development of next-generation AI agents capable of genuine
scientific discovery.