NewtonBench: Benchmarking der Entdeckung verallgemeinerbarer wissenschaftlicher Gesetze in LLM-Agenten
NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents
October 8, 2025
papers.authors: Tianshi Zheng, Kelvin Kiu-Wai Tam, Newt Hue-Nam K. Nguyen, Baixuan Xu, Zhaowei Wang, Jiayang Cheng, Hong Ting Tsang, Weiqi Wang, Jiaxin Bai, Tianqing Fang, Yangqiu Song, Ginny Y. Wong, Simon See
cs.AI
papers.abstract
Große Sprachmodelle entwickeln sich zu leistungsstarken Werkzeugen für die Entdeckung wissenschaftlicher Gesetze, einer grundlegenden Herausforderung in der KI-gestützten Wissenschaft. Bestehende Benchmarks für diese Aufgabe leiden jedoch unter einem grundlegenden methodischen Trilemma, das einen Kompromiss zwischen wissenschaftlicher Relevanz, Skalierbarkeit und Resistenz gegen Memorierung erzwingt. Darüber hinaus vereinfachen sie die Entdeckung als statische Funktionenanpassung und erfassen nicht den authentischen wissenschaftlichen Prozess der Aufdeckung eingebetteter Gesetze durch die interaktive Erforschung komplexer Modellsysteme. Um diese kritischen Lücken zu schließen, führen wir NewtonBench ein, einen Benchmark, der 324 Aufgaben zur Entdeckung wissenschaftlicher Gesetze über 12 physikalische Domänen umfasst. Unser Design mildert das Evaluations-Trilemma durch die Verwendung metaphysischer Verschiebungen – systematische Veränderungen kanonischer Gesetze –, um eine Vielzahl von Problemen zu generieren, die skalierbar, wissenschaftlich relevant und memorierungsresistent sind. Darüber hinaus heben wir die Evaluation von der statischen Funktionenanpassung auf die interaktive Modellentdeckung an, wobei Agenten experimentell simulierte komplexe Systeme untersuchen müssen, um verborgene Prinzipien aufzudecken. Unsere umfangreichen Experimente zeigen eine klare, aber fragile Fähigkeit zur Entdeckung in fortschrittlichen LLMs: Diese Fähigkeit verschlechtert sich rapide mit zunehmender Systemkomplexität und zeigt extreme Empfindlichkeit gegenüber Beobachtungsrauschen. Bemerkenswert ist, dass wir einen paradoxen Effekt der Werkzeugunterstützung aufdecken: Die Bereitstellung eines Code-Interpreters kann leistungsfähigere Modelle behindern, indem er einen vorzeitigen Wechsel von der Exploration zur Ausbeutung induziert und sie dazu veranlasst, sich mit suboptimalen Lösungen zufriedenzugeben. Diese Ergebnisse zeigen, dass robuste, generalisierbare Entdeckungen in komplexen, interaktiven Umgebungen die Kernherausforderung bleiben. Durch die Bereitstellung eines skalierbaren, robusten und wissenschaftlich authentischen Testumfelds bietet NewtonBench ein entscheidendes Werkzeug, um echte Fortschritte zu messen und die Entwicklung von KI-Agenten der nächsten Generation zu leiten, die zu echter wissenschaftlicher Entdeckung fähig sind.
English
Large language models are emerging as powerful tools for scientific law
discovery, a foundational challenge in AI-driven science. However, existing
benchmarks for this task suffer from a fundamental methodological trilemma,
forcing a trade-off between scientific relevance, scalability, and resistance
to memorization. Furthermore, they oversimplify discovery as static function
fitting, failing to capture the authentic scientific process of uncovering
embedded laws through the interactive exploration of complex model systems. To
address these critical gaps, we introduce NewtonBench, a benchmark comprising
324 scientific law discovery tasks across 12 physics domains. Our design
mitigates the evaluation trilemma by using metaphysical shifts - systematic
alterations of canonical laws - to generate a vast suite of problems that are
scalable, scientifically relevant, and memorization-resistant. Moreover, we
elevate the evaluation from static function fitting to interactive model
discovery, requiring agents to experimentally probe simulated complex systems
to uncover hidden principles. Our extensive experiment reveals a clear but
fragile capability for discovery in frontier LLMs: this ability degrades
precipitously with increasing system complexity and exhibits extreme
sensitivity to observational noise. Notably, we uncover a paradoxical effect of
tool assistance: providing a code interpreter can hinder more capable models by
inducing a premature shift from exploration to exploitation, causing them to
satisfice on suboptimal solutions. These results demonstrate that robust,
generalizable discovery in complex, interactive environments remains the core
challenge. By providing a scalable, robust, and scientifically authentic
testbed, NewtonBench offers a crucial tool for measuring true progress and
guiding the development of next-generation AI agents capable of genuine
scientific discovery.