Exploration du Point Critique (CritPt) du Raisonnement en IA : un Référentiel de Recherche à la Frontière de la Physique
Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark
September 30, 2025
papers.authors: Minhui Zhu, Minyang Tian, Xiaocheng Yang, Tianci Zhou, Penghao Zhu, Eli Chertkov, Shengyan Liu, Yufeng Du, Lifan Yuan, Ziming Ji, Indranil Das, Junyi Cao, Yufeng Du, Jinchen He, Yifan Su, Jiabin Yu, Yikun Jiang, Yujie Zhang, Chang Liu, Ze-Min Huang, Weizhen Jia, Xinan Chen, Peixue Wu, Yunkai Wang, Juntai Zhou, Yong Zhao, Farshid Jafarpour, Jessie Shelton, Aaron Young, John Bartolotta, Wenchao Xu, Yue Sun, Anjun Chu, Victor Colussi, Chris Akers, Nathan Brooks, Wenbo Fu, Christopher Wilson, Jinchao Zhao, Marvin Qi, Anqi Mu, Yubo Yang, Allen Zang, Yang Lyu, Peizhi Mai, Xuefei Guo, Luyu Gao, Ze Yang, Chi Xue, Dmytro Bandak, Yaïr Hein, Yonatan Kahn, Kevin Zhou, John Drew Wilson Jarrod T. Reilly, Di Luo, Daniel Inafuku, Hao Tong, Liang Yang, Ruixing Zhang, Xueying Wang, Ofir Press, Nicolas Chia, Eliu Huerta, Hao Peng
cs.AI
papers.abstract
Alors que les grands modèles de langage (LLM) dotés de capacités de raisonnement progressent rapidement dans les compétitions de mathématiques de niveau lycée et en programmation, peuvent-ils raisonner efficacement face à des défis complexes et ouverts rencontrés dans la recherche de pointe en physique ? Et surtout, quels types de tâches de raisonnement les physiciens souhaitent-ils voir les LLM les assister à accomplir ? Pour répondre à ces questions, nous présentons CritPt (Complex Research using Integrated Thinking - Physics Test, prononcé "point critique"), le premier benchmark conçu pour évaluer les LLM sur des tâches de raisonnement de niveau recherche non publiées, couvrant largement les domaines modernes de la physique, notamment la matière condensée, la physique quantique, la physique atomique, moléculaire et optique, l'astrophysique, la physique des hautes énergies, la physique mathématique, la physique statistique, la physique nucléaire, la dynamique non linéaire, la dynamique des fluides et la biophysique. CritPt se compose de 71 défis de recherche composites conçus pour simuler des projets de recherche à grande échelle de niveau débutant, qui sont également décomposés en 190 tâches de contrôle plus simples pour des analyses plus granulaires. Tous les problèmes ont été nouvellement créés par plus de 50 chercheurs actifs en physique, basés sur leurs propres recherches. Chaque problème est soigneusement sélectionné pour admettre une réponse résistante aux conjectures et vérifiable par machine, et est évalué par un pipeline de notation automatisé fortement personnalisé pour les formats de sortie spécifiques à la physique avancée. Nous constatons que si les LLM actuels de pointe montrent des signes prometteurs sur des points de contrôle isolés, ils restent loin de pouvoir résoudre de manière fiable des défis de recherche à grande échelle : la meilleure précision moyenne parmi les modèles de base n'est que de 4,0 %, atteinte par GPT-5 (haut), augmentant modérément à environ 10 % lorsqu'ils sont équipés d'outils de programmation. Grâce à l'évaluation réaliste mais standardisée offerte par CritPt, nous mettons en évidence un grand décalage entre les capacités actuelles des modèles et les exigences réalistes de la recherche en physique, offrant une base pour guider le développement d'outils d'IA scientifiquement fondés.
English
While large language models (LLMs) with reasoning capabilities are
progressing rapidly on high-school math competitions and coding, can they
reason effectively through complex, open-ended challenges found in frontier
physics research? And crucially, what kinds of reasoning tasks do physicists
want LLMs to assist with? To address these questions, we present the CritPt
(Complex Research using Integrated Thinking - Physics Test, pronounced
"critical point"), the first benchmark designed to test LLMs on unpublished,
research-level reasoning tasks that broadly covers modern physics research
areas, including condensed matter, quantum physics, atomic, molecular & optical
physics, astrophysics, high energy physics, mathematical physics, statistical
physics, nuclear physics, nonlinear dynamics, fluid dynamics and biophysics.
CritPt consists of 71 composite research challenges designed to simulate
full-scale research projects at the entry level, which are also decomposed to
190 simpler checkpoint tasks for more fine-grained insights. All problems are
newly created by 50+ active physics researchers based on their own research.
Every problem is hand-curated to admit a guess-resistant and machine-verifiable
answer and is evaluated by an automated grading pipeline heavily customized for
advanced physics-specific output formats. We find that while current
state-of-the-art LLMs show early promise on isolated checkpoints, they remain
far from being able to reliably solve full research-scale challenges: the best
average accuracy among base models is only 4.0% , achieved by GPT-5 (high),
moderately rising to around 10% when equipped with coding tools. Through the
realistic yet standardized evaluation offered by CritPt, we highlight a large
disconnect between current model capabilities and realistic physics research
demands, offering a foundation to guide the development of scientifically
grounded AI tools.