NATUURKUNDE: Het benchmarken van foundation models op universitair niveau voor het oplossen van natuurkundeproblemen
PHYSICS: Benchmarking Foundation Models on University-Level Physics Problem Solving
March 26, 2025
Auteurs: Kaiyue Feng, Yilun Zhao, Yixin Liu, Tianyu Yang, Chen Zhao, John Sous, Arman Cohan
cs.AI
Samenvatting
We introduceren PHYSICS, een uitgebreide benchmark voor het oplossen van problemen op universitair niveau in de natuurkunde. Het bevat 1297 expert-geannoteerde problemen die zes kerngebieden beslaan: klassieke mechanica, kwantummechanica, thermodynamica en statistische mechanica, elektromagnetisme, atoomfysica en optica. Elk probleem vereist geavanceerde natuurkundige kennis en wiskundig redeneren. We ontwikkelen een robuust geautomatiseerd evaluatiesysteem voor nauwkeurige en betrouwbare validatie. Onze evaluatie van toonaangevende foundationmodellen onthult aanzienlijke beperkingen. Zelfs het meest geavanceerde model, o3-mini, behaalt slechts 59,9% nauwkeurigheid, wat de aanzienlijke uitdagingen bij het oplossen van hoogwaardige wetenschappelijke problemen benadrukt. Door middel van uitgebreide foutenanalyse, het verkennen van diverse promptingstrategieën en kennisuitbreiding op basis van Retrieval-Augmented Generation (RAG), identificeren we belangrijke verbeteringsgebieden, wat de basis legt voor toekomstige vooruitgang.
English
We introduce PHYSICS, a comprehensive benchmark for university-level physics
problem solving. It contains 1297 expert-annotated problems covering six core
areas: classical mechanics, quantum mechanics, thermodynamics and statistical
mechanics, electromagnetism, atomic physics, and optics. Each problem requires
advanced physics knowledge and mathematical reasoning. We develop a robust
automated evaluation system for precise and reliable validation. Our evaluation
of leading foundation models reveals substantial limitations. Even the most
advanced model, o3-mini, achieves only 59.9% accuracy, highlighting significant
challenges in solving high-level scientific problems. Through comprehensive
error analysis, exploration of diverse prompting strategies, and
Retrieval-Augmented Generation (RAG)-based knowledge augmentation, we identify
key areas for improvement, laying the foundation for future advancements.Summary
AI-Generated Summary