ChatPaper.aiChatPaper

Esplorazione del Punto Critico (CritPt) del Ragionamento AI: un Benchmark di Ricerca alla Frontiera della Fisica

Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark

September 30, 2025
Autori: Minhui Zhu, Minyang Tian, Xiaocheng Yang, Tianci Zhou, Penghao Zhu, Eli Chertkov, Shengyan Liu, Yufeng Du, Lifan Yuan, Ziming Ji, Indranil Das, Junyi Cao, Yufeng Du, Jinchen He, Yifan Su, Jiabin Yu, Yikun Jiang, Yujie Zhang, Chang Liu, Ze-Min Huang, Weizhen Jia, Xinan Chen, Peixue Wu, Yunkai Wang, Juntai Zhou, Yong Zhao, Farshid Jafarpour, Jessie Shelton, Aaron Young, John Bartolotta, Wenchao Xu, Yue Sun, Anjun Chu, Victor Colussi, Chris Akers, Nathan Brooks, Wenbo Fu, Christopher Wilson, Jinchao Zhao, Marvin Qi, Anqi Mu, Yubo Yang, Allen Zang, Yang Lyu, Peizhi Mai, Xuefei Guo, Luyu Gao, Ze Yang, Chi Xue, Dmytro Bandak, Yaïr Hein, Yonatan Kahn, Kevin Zhou, John Drew Wilson Jarrod T. Reilly, Di Luo, Daniel Inafuku, Hao Tong, Liang Yang, Ruixing Zhang, Xueying Wang, Ofir Press, Nicolas Chia, Eliu Huerta, Hao Peng
cs.AI

Abstract

Mentre i grandi modelli linguistici (LLM) con capacità di ragionamento stanno progredendo rapidamente nelle competizioni di matematica delle scuole superiori e nella programmazione, possono ragionare efficacemente attraverso sfide complesse e aperte presenti nella ricerca di frontiera in fisica? E, soprattutto, quali tipi di compiti di ragionamento i fisici desiderano che gli LLM li assistano a svolgere? Per affrontare queste domande, presentiamo il CritPt (Complex Research using Integrated Thinking - Physics Test, pronunciato "punto critico"), il primo benchmark progettato per testare gli LLM su compiti di ragionamento a livello di ricerca non pubblicati, che coprono ampiamente le aree di ricerca moderna in fisica, tra cui materia condensata, fisica quantistica, fisica atomica, molecolare e ottica, astrofisica, fisica delle alte energie, fisica matematica, fisica statistica, fisica nucleare, dinamica non lineare, fluidodinamica e biofisica. CritPt consiste in 71 sfide di ricerca composite progettate per simulare progetti di ricerca su larga scala a livello introduttivo, che sono anche scomposti in 190 compiti più semplici per ottenere approfondimenti più granulari. Tutti i problemi sono stati creati ex novo da oltre 50 ricercatori attivi in fisica basandosi sulle loro ricerche. Ogni problema è stato curato manualmente per ammettere una risposta resistente alle congetture e verificabile automaticamente, ed è valutato da una pipeline di valutazione automatizzata altamente personalizzata per formati di output avanzati specifici della fisica. Scopriamo che, sebbene gli attuali LLM all'avanguardia mostrino promesse iniziali su compiti isolati, rimangono lontani dall'essere in grado di risolvere in modo affidabile sfide di ricerca su scala completa: la migliore accuratezza media tra i modelli di base è solo del 4,0%, raggiunta da GPT-5 (high), che sale moderatamente a circa il 10% quando equipaggiato con strumenti di programmazione. Attraverso la valutazione realistica ma standardizzata offerta da CritPt, evidenziamo un ampio divario tra le capacità attuali dei modelli e le esigenze realistiche della ricerca in fisica, offrendo una base per guidare lo sviluppo di strumenti di IA scientificamente fondati.
English
While large language models (LLMs) with reasoning capabilities are progressing rapidly on high-school math competitions and coding, can they reason effectively through complex, open-ended challenges found in frontier physics research? And crucially, what kinds of reasoning tasks do physicists want LLMs to assist with? To address these questions, we present the CritPt (Complex Research using Integrated Thinking - Physics Test, pronounced "critical point"), the first benchmark designed to test LLMs on unpublished, research-level reasoning tasks that broadly covers modern physics research areas, including condensed matter, quantum physics, atomic, molecular & optical physics, astrophysics, high energy physics, mathematical physics, statistical physics, nuclear physics, nonlinear dynamics, fluid dynamics and biophysics. CritPt consists of 71 composite research challenges designed to simulate full-scale research projects at the entry level, which are also decomposed to 190 simpler checkpoint tasks for more fine-grained insights. All problems are newly created by 50+ active physics researchers based on their own research. Every problem is hand-curated to admit a guess-resistant and machine-verifiable answer and is evaluated by an automated grading pipeline heavily customized for advanced physics-specific output formats. We find that while current state-of-the-art LLMs show early promise on isolated checkpoints, they remain far from being able to reliably solve full research-scale challenges: the best average accuracy among base models is only 4.0% , achieved by GPT-5 (high), moderately rising to around 10% when equipped with coding tools. Through the realistic yet standardized evaluation offered by CritPt, we highlight a large disconnect between current model capabilities and realistic physics research demands, offering a foundation to guide the development of scientifically grounded AI tools.
PDF12October 1, 2025