NewtonBench: Valutazione della Scoperta di Leggi Scientifiche Generalizzabili in Agenti LLM
NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents
October 8, 2025
Autori: Tianshi Zheng, Kelvin Kiu-Wai Tam, Newt Hue-Nam K. Nguyen, Baixuan Xu, Zhaowei Wang, Jiayang Cheng, Hong Ting Tsang, Weiqi Wang, Jiaxin Bai, Tianqing Fang, Yangqiu Song, Ginny Y. Wong, Simon See
cs.AI
Abstract
I grandi modelli linguistici stanno emergendo come strumenti potenti per la scoperta di leggi scientifiche, una sfida fondamentale nella scienza guidata dall'IA. Tuttavia, i benchmark esistenti per questo compito soffrono di un trilemma metodologico di base, costringendo a un compromesso tra rilevanza scientifica, scalabilità e resistenza alla memorizzazione. Inoltre, semplificano eccessivamente la scoperta come un adattamento statico di funzioni, non riuscendo a catturare il processo scientifico autentico di scoperta di leggi incorporate attraverso l'esplorazione interattiva di sistemi modello complessi. Per colmare queste lacune critiche, introduciamo NewtonBench, un benchmark che comprende 324 compiti di scoperta di leggi scientifiche in 12 domini della fisica. Il nostro design mitiga il trilemma di valutazione utilizzando cambiamenti metafisici - alterazioni sistematiche di leggi canoniche - per generare una vasta gamma di problemi che sono scalabili, scientificamente rilevanti e resistenti alla memorizzazione. Inoltre, eleviamo la valutazione dall'adattamento statico di funzioni alla scoperta interattiva di modelli, richiedendo agli agenti di esplorare sperimentalmente sistemi complessi simulati per scoprire principi nascosti. I nostri esperimenti estesi rivelano una capacità chiara ma fragile di scoperta nei modelli linguistici all'avanguardia: questa capacità si degrada precipitosamente con l'aumentare della complessità del sistema e mostra un'estrema sensibilità al rumore osservativo. In particolare, scopriamo un effetto paradossale dell'assistenza strumentale: fornire un interprete di codice può ostacolare i modelli più capaci inducendo un passaggio prematuro dall'esplorazione allo sfruttamento, portandoli a accontentarsi di soluzioni subottimali. Questi risultati dimostrano che la scoperta robusta e generalizzabile in ambienti complessi e interattivi rimane la sfida centrale. Fornendo un banco di prova scalabile, robusto e scientificamente autentico, NewtonBench offre uno strumento cruciale per misurare il vero progresso e guidare lo sviluppo di agenti IA di prossima generazione capaci di una genuina scoperta scientifica.
English
Large language models are emerging as powerful tools for scientific law
discovery, a foundational challenge in AI-driven science. However, existing
benchmarks for this task suffer from a fundamental methodological trilemma,
forcing a trade-off between scientific relevance, scalability, and resistance
to memorization. Furthermore, they oversimplify discovery as static function
fitting, failing to capture the authentic scientific process of uncovering
embedded laws through the interactive exploration of complex model systems. To
address these critical gaps, we introduce NewtonBench, a benchmark comprising
324 scientific law discovery tasks across 12 physics domains. Our design
mitigates the evaluation trilemma by using metaphysical shifts - systematic
alterations of canonical laws - to generate a vast suite of problems that are
scalable, scientifically relevant, and memorization-resistant. Moreover, we
elevate the evaluation from static function fitting to interactive model
discovery, requiring agents to experimentally probe simulated complex systems
to uncover hidden principles. Our extensive experiment reveals a clear but
fragile capability for discovery in frontier LLMs: this ability degrades
precipitously with increasing system complexity and exhibits extreme
sensitivity to observational noise. Notably, we uncover a paradoxical effect of
tool assistance: providing a code interpreter can hinder more capable models by
inducing a premature shift from exploration to exploitation, causing them to
satisfice on suboptimal solutions. These results demonstrate that robust,
generalizable discovery in complex, interactive environments remains the core
challenge. By providing a scalable, robust, and scientifically authentic
testbed, NewtonBench offers a crucial tool for measuring true progress and
guiding the development of next-generation AI agents capable of genuine
scientific discovery.