ChatPaper.aiChatPaper

NewtonBench: Evaluación de la Descubrimiento de Leyes Científicas Generalizables en Agentes de Modelos de Lenguaje de Gran Escala

NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents

October 8, 2025
Autores: Tianshi Zheng, Kelvin Kiu-Wai Tam, Newt Hue-Nam K. Nguyen, Baixuan Xu, Zhaowei Wang, Jiayang Cheng, Hong Ting Tsang, Weiqi Wang, Jiaxin Bai, Tianqing Fang, Yangqiu Song, Ginny Y. Wong, Simon See
cs.AI

Resumen

Los modelos de lenguaje de gran escala están surgiendo como herramientas poderosas para el descubrimiento de leyes científicas, un desafío fundamental en la ciencia impulsada por la inteligencia artificial. Sin embargo, los puntos de referencia existentes para esta tarea enfrentan un trilema metodológico fundamental, forzando una compensación entre relevancia científica, escalabilidad y resistencia a la memorización. Además, simplifican en exceso el descubrimiento como un ajuste estático de funciones, sin capturar el proceso científico auténtico de revelar leyes subyacentes a través de la exploración interactiva de sistemas de modelos complejos. Para abordar estas brechas críticas, presentamos NewtonBench, un punto de referencia que comprende 324 tareas de descubrimiento de leyes científicas en 12 dominios de la física. Nuestro diseño mitiga el trilema de evaluación mediante el uso de cambios metafísicos —alteraciones sistemáticas de leyes canónicas— para generar un amplio conjunto de problemas que son escalables, científicamente relevantes y resistentes a la memorización. Además, elevamos la evaluación desde el ajuste estático de funciones al descubrimiento interactivo de modelos, requiriendo que los agentes exploren experimentalmente sistemas complejos simulados para descubrir principios ocultos. Nuestro extenso experimento revela una capacidad clara pero frágil para el descubrimiento en los modelos de lenguaje de última generación: esta habilidad se degrada abruptamente con el aumento de la complejidad del sistema y muestra una extrema sensibilidad al ruido observacional. Notablemente, descubrimos un efecto paradójico de la asistencia con herramientas: proporcionar un intérprete de código puede obstaculizar a los modelos más capaces al inducir un cambio prematuro de la exploración a la explotación, llevándolos a conformarse con soluciones subóptimas. Estos resultados demuestran que el descubrimiento robusto y generalizable en entornos complejos e interactivos sigue siendo el desafío central. Al ofrecer un banco de pruebas escalable, robusto y científicamente auténtico, NewtonBench proporciona una herramienta crucial para medir el progreso real y guiar el desarrollo de agentes de IA de próxima generación capaces de un descubrimiento científico genuino.
English
Large language models are emerging as powerful tools for scientific law discovery, a foundational challenge in AI-driven science. However, existing benchmarks for this task suffer from a fundamental methodological trilemma, forcing a trade-off between scientific relevance, scalability, and resistance to memorization. Furthermore, they oversimplify discovery as static function fitting, failing to capture the authentic scientific process of uncovering embedded laws through the interactive exploration of complex model systems. To address these critical gaps, we introduce NewtonBench, a benchmark comprising 324 scientific law discovery tasks across 12 physics domains. Our design mitigates the evaluation trilemma by using metaphysical shifts - systematic alterations of canonical laws - to generate a vast suite of problems that are scalable, scientifically relevant, and memorization-resistant. Moreover, we elevate the evaluation from static function fitting to interactive model discovery, requiring agents to experimentally probe simulated complex systems to uncover hidden principles. Our extensive experiment reveals a clear but fragile capability for discovery in frontier LLMs: this ability degrades precipitously with increasing system complexity and exhibits extreme sensitivity to observational noise. Notably, we uncover a paradoxical effect of tool assistance: providing a code interpreter can hinder more capable models by inducing a premature shift from exploration to exploitation, causing them to satisfice on suboptimal solutions. These results demonstrate that robust, generalizable discovery in complex, interactive environments remains the core challenge. By providing a scalable, robust, and scientifically authentic testbed, NewtonBench offers a crucial tool for measuring true progress and guiding the development of next-generation AI agents capable of genuine scientific discovery.
PDF272October 10, 2025