NewtonBench: Оценка способности агентов на основе крупных языковых моделей к открытию обобщаемых научных законов
NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents
October 8, 2025
Авторы: Tianshi Zheng, Kelvin Kiu-Wai Tam, Newt Hue-Nam K. Nguyen, Baixuan Xu, Zhaowei Wang, Jiayang Cheng, Hong Ting Tsang, Weiqi Wang, Jiaxin Bai, Tianqing Fang, Yangqiu Song, Ginny Y. Wong, Simon See
cs.AI
Аннотация
Крупные языковые модели становятся мощным инструментом для открытия научных законов — фундаментальной задачи в науке, движимой ИИ. Однако существующие бенчмарки для этой задачи сталкиваются с методологической трилеммой, вынуждая идти на компромисс между научной значимостью, масштабируемостью и устойчивостью к запоминанию. Более того, они упрощают процесс открытия до статического подгонки функций, не учитывая подлинный научный процесс выявления скрытых законов через интерактивное исследование сложных модельных систем. Чтобы устранить эти критические пробелы, мы представляем NewtonBench — бенчмарк, включающий 324 задачи по открытию научных законов в 12 областях физики. Наш подход смягчает трилемму оценки, используя метафизические сдвиги — систематические изменения канонических законов — для создания масштабируемых, научно значимых и устойчивых к запоминанию задач. Кроме того, мы поднимаем оценку от статической подгонки функций до интерактивного открытия моделей, требуя от агентов экспериментального исследования смоделированных сложных систем для выявления скрытых принципов. Наши обширные эксперименты выявили ясную, но хрупкую способность к открытию у передовых языковых моделей: эта способность резко ухудшается с ростом сложности системы и демонстрирует крайнюю чувствительность к наблюдаемому шуму. Примечательно, что мы обнаружили парадоксальный эффект инструментальной помощи: предоставление интерпретатора кода может препятствовать более способным моделям, вызывая преждевременный переход от исследования к эксплуатации, что заставляет их довольствоваться субоптимальными решениями. Эти результаты показывают, что устойчивое и обобщаемое открытие в сложных интерактивных средах остается ключевой проблемой. Предоставляя масштабируемый, надежный и научно аутентичный тестовый стенд, NewtonBench предлагает важный инструмент для измерения реального прогресса и направления разработки следующего поколения ИИ-агентов, способных к подлинному научному открытию.
English
Large language models are emerging as powerful tools for scientific law
discovery, a foundational challenge in AI-driven science. However, existing
benchmarks for this task suffer from a fundamental methodological trilemma,
forcing a trade-off between scientific relevance, scalability, and resistance
to memorization. Furthermore, they oversimplify discovery as static function
fitting, failing to capture the authentic scientific process of uncovering
embedded laws through the interactive exploration of complex model systems. To
address these critical gaps, we introduce NewtonBench, a benchmark comprising
324 scientific law discovery tasks across 12 physics domains. Our design
mitigates the evaluation trilemma by using metaphysical shifts - systematic
alterations of canonical laws - to generate a vast suite of problems that are
scalable, scientifically relevant, and memorization-resistant. Moreover, we
elevate the evaluation from static function fitting to interactive model
discovery, requiring agents to experimentally probe simulated complex systems
to uncover hidden principles. Our extensive experiment reveals a clear but
fragile capability for discovery in frontier LLMs: this ability degrades
precipitously with increasing system complexity and exhibits extreme
sensitivity to observational noise. Notably, we uncover a paradoxical effect of
tool assistance: providing a code interpreter can hinder more capable models by
inducing a premature shift from exploration to exploitation, causing them to
satisfice on suboptimal solutions. These results demonstrate that robust,
generalizable discovery in complex, interactive environments remains the core
challenge. By providing a scalable, robust, and scientifically authentic
testbed, NewtonBench offers a crucial tool for measuring true progress and
guiding the development of next-generation AI agents capable of genuine
scientific discovery.