ChatPaper.aiChatPaper

Investigando o Ponto Crítico (CritPt) do Raciocínio em IA: Um Benchmark de Pesquisa na Fronteira da Física

Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark

September 30, 2025
Autores: Minhui Zhu, Minyang Tian, Xiaocheng Yang, Tianci Zhou, Penghao Zhu, Eli Chertkov, Shengyan Liu, Yufeng Du, Lifan Yuan, Ziming Ji, Indranil Das, Junyi Cao, Yufeng Du, Jinchen He, Yifan Su, Jiabin Yu, Yikun Jiang, Yujie Zhang, Chang Liu, Ze-Min Huang, Weizhen Jia, Xinan Chen, Peixue Wu, Yunkai Wang, Juntai Zhou, Yong Zhao, Farshid Jafarpour, Jessie Shelton, Aaron Young, John Bartolotta, Wenchao Xu, Yue Sun, Anjun Chu, Victor Colussi, Chris Akers, Nathan Brooks, Wenbo Fu, Christopher Wilson, Jinchao Zhao, Marvin Qi, Anqi Mu, Yubo Yang, Allen Zang, Yang Lyu, Peizhi Mai, Xuefei Guo, Luyu Gao, Ze Yang, Chi Xue, Dmytro Bandak, Yaïr Hein, Yonatan Kahn, Kevin Zhou, John Drew Wilson Jarrod T. Reilly, Di Luo, Daniel Inafuku, Hao Tong, Liang Yang, Ruixing Zhang, Xueying Wang, Ofir Press, Nicolas Chia, Eliu Huerta, Hao Peng
cs.AI

Resumo

Enquanto os grandes modelos de linguagem (LLMs) com capacidades de raciocínio estão progredindo rapidamente em competições de matemática do ensino médio e em codificação, eles podem raciocinar efetivamente através de desafios complexos e abertos encontrados na pesquisa de física de fronteira? E, crucialmente, que tipos de tarefas de raciocínio os físicos desejam que os LLMs auxiliem? Para abordar essas questões, apresentamos o CritPt (Complex Research using Integrated Thinking - Physics Test, pronunciado "ponto crítico"), o primeiro benchmark projetado para testar LLMs em tarefas de raciocínio de nível de pesquisa não publicadas que abrangem amplamente áreas modernas de pesquisa em física, incluindo matéria condensada, física quântica, física atômica, molecular e óptica, astrofísica, física de alta energia, física matemática, física estatística, física nuclear, dinâmica não linear, dinâmica de fluidos e biofísica. O CritPt consiste em 71 desafios de pesquisa compostos projetados para simular projetos de pesquisa em escala completa no nível de entrada, que também são decompostos em 190 tarefas de verificação mais simples para insights mais detalhados. Todos os problemas foram criados recentemente por mais de 50 pesquisadores ativos em física com base em suas próprias pesquisas. Cada problema é cuidadosamente curado para admitir uma resposta resistente a palpites e verificável por máquina, e é avaliado por um pipeline de correção automatizado altamente personalizado para formatos de saída específicos de física avançada. Descobrimos que, embora os LLMs state-of-the-art atuais mostrem promessas iniciais em verificações isoladas, eles ainda estão longe de serem capazes de resolver de forma confiável desafios completos em escala de pesquisa: a melhor precisão média entre os modelos base é de apenas 4,0%, alcançada pelo GPT-5 (alto), subindo moderadamente para cerca de 10% quando equipado com ferramentas de codificação. Através da avaliação realista, porém padronizada, oferecida pelo CritPt, destacamos uma grande desconexão entre as capacidades atuais dos modelos e as demandas realistas da pesquisa em física, oferecendo uma base para orientar o desenvolvimento de ferramentas de IA cientificamente fundamentadas.
English
While large language models (LLMs) with reasoning capabilities are progressing rapidly on high-school math competitions and coding, can they reason effectively through complex, open-ended challenges found in frontier physics research? And crucially, what kinds of reasoning tasks do physicists want LLMs to assist with? To address these questions, we present the CritPt (Complex Research using Integrated Thinking - Physics Test, pronounced "critical point"), the first benchmark designed to test LLMs on unpublished, research-level reasoning tasks that broadly covers modern physics research areas, including condensed matter, quantum physics, atomic, molecular & optical physics, astrophysics, high energy physics, mathematical physics, statistical physics, nuclear physics, nonlinear dynamics, fluid dynamics and biophysics. CritPt consists of 71 composite research challenges designed to simulate full-scale research projects at the entry level, which are also decomposed to 190 simpler checkpoint tasks for more fine-grained insights. All problems are newly created by 50+ active physics researchers based on their own research. Every problem is hand-curated to admit a guess-resistant and machine-verifiable answer and is evaluated by an automated grading pipeline heavily customized for advanced physics-specific output formats. We find that while current state-of-the-art LLMs show early promise on isolated checkpoints, they remain far from being able to reliably solve full research-scale challenges: the best average accuracy among base models is only 4.0% , achieved by GPT-5 (high), moderately rising to around 10% when equipped with coding tools. Through the realistic yet standardized evaluation offered by CritPt, we highlight a large disconnect between current model capabilities and realistic physics research demands, offering a foundation to guide the development of scientifically grounded AI tools.
PDF12October 1, 2025