ChatPaper.aiChatPaper

FÍSICA: Avaliação de Modelos de Base na Resolução de Problemas de Física em Nível Universitário

PHYSICS: Benchmarking Foundation Models on University-Level Physics Problem Solving

March 26, 2025
Autores: Kaiyue Feng, Yilun Zhao, Yixin Liu, Tianyu Yang, Chen Zhao, John Sous, Arman Cohan
cs.AI

Resumo

Apresentamos o PHYSICS, um benchmark abrangente para a resolução de problemas de física em nível universitário. Ele contém 1297 problemas anotados por especialistas, abrangendo seis áreas principais: mecânica clássica, mecânica quântica, termodinâmica e mecânica estatística, eletromagnetismo, física atômica e óptica. Cada problema exige conhecimento avançado de física e raciocínio matemático. Desenvolvemos um sistema automatizado robusto de avaliação para validação precisa e confiável. Nossa avaliação dos principais modelos de base revela limitações significativas. Mesmo o modelo mais avançado, o o3-mini, atinge apenas 59,9% de precisão, destacando desafios consideráveis na resolução de problemas científicos de alto nível. Por meio de uma análise abrangente de erros, exploração de diversas estratégias de prompt e aumento de conhecimento baseado em Geração Aumentada por Recuperação (RAG), identificamos áreas-chave para melhoria, estabelecendo as bases para avanços futuros.
English
We introduce PHYSICS, a comprehensive benchmark for university-level physics problem solving. It contains 1297 expert-annotated problems covering six core areas: classical mechanics, quantum mechanics, thermodynamics and statistical mechanics, electromagnetism, atomic physics, and optics. Each problem requires advanced physics knowledge and mathematical reasoning. We develop a robust automated evaluation system for precise and reliable validation. Our evaluation of leading foundation models reveals substantial limitations. Even the most advanced model, o3-mini, achieves only 59.9% accuracy, highlighting significant challenges in solving high-level scientific problems. Through comprehensive error analysis, exploration of diverse prompting strategies, and Retrieval-Augmented Generation (RAG)-based knowledge augmentation, we identify key areas for improvement, laying the foundation for future advancements.

Summary

AI-Generated Summary

PDF172March 31, 2025