FÍSICA: Avaliação de Modelos de Base na Resolução de Problemas de Física em Nível Universitário
PHYSICS: Benchmarking Foundation Models on University-Level Physics Problem Solving
March 26, 2025
Autores: Kaiyue Feng, Yilun Zhao, Yixin Liu, Tianyu Yang, Chen Zhao, John Sous, Arman Cohan
cs.AI
Resumo
Apresentamos o PHYSICS, um benchmark abrangente para a resolução de problemas de física em nível universitário. Ele contém 1297 problemas anotados por especialistas, abrangendo seis áreas principais: mecânica clássica, mecânica quântica, termodinâmica e mecânica estatística, eletromagnetismo, física atômica e óptica. Cada problema exige conhecimento avançado de física e raciocínio matemático. Desenvolvemos um sistema automatizado robusto de avaliação para validação precisa e confiável. Nossa avaliação dos principais modelos de base revela limitações significativas. Mesmo o modelo mais avançado, o o3-mini, atinge apenas 59,9% de precisão, destacando desafios consideráveis na resolução de problemas científicos de alto nível. Por meio de uma análise abrangente de erros, exploração de diversas estratégias de prompt e aumento de conhecimento baseado em Geração Aumentada por Recuperação (RAG), identificamos áreas-chave para melhoria, estabelecendo as bases para avanços futuros.
English
We introduce PHYSICS, a comprehensive benchmark for university-level physics
problem solving. It contains 1297 expert-annotated problems covering six core
areas: classical mechanics, quantum mechanics, thermodynamics and statistical
mechanics, electromagnetism, atomic physics, and optics. Each problem requires
advanced physics knowledge and mathematical reasoning. We develop a robust
automated evaluation system for precise and reliable validation. Our evaluation
of leading foundation models reveals substantial limitations. Even the most
advanced model, o3-mini, achieves only 59.9% accuracy, highlighting significant
challenges in solving high-level scientific problems. Through comprehensive
error analysis, exploration of diverse prompting strategies, and
Retrieval-Augmented Generation (RAG)-based knowledge augmentation, we identify
key areas for improvement, laying the foundation for future advancements.Summary
AI-Generated Summary