ChatPaper.aiChatPaper

NATUURKUNDE: Het benchmarken van foundation models op universitair niveau voor het oplossen van natuurkundeproblemen

PHYSICS: Benchmarking Foundation Models on University-Level Physics Problem Solving

March 26, 2025
Auteurs: Kaiyue Feng, Yilun Zhao, Yixin Liu, Tianyu Yang, Chen Zhao, John Sous, Arman Cohan
cs.AI

Samenvatting

We introduceren PHYSICS, een uitgebreide benchmark voor het oplossen van problemen op universitair niveau in de natuurkunde. Het bevat 1297 expert-geannoteerde problemen die zes kerngebieden beslaan: klassieke mechanica, kwantummechanica, thermodynamica en statistische mechanica, elektromagnetisme, atoomfysica en optica. Elk probleem vereist geavanceerde natuurkundige kennis en wiskundig redeneren. We ontwikkelen een robuust geautomatiseerd evaluatiesysteem voor nauwkeurige en betrouwbare validatie. Onze evaluatie van toonaangevende foundationmodellen onthult aanzienlijke beperkingen. Zelfs het meest geavanceerde model, o3-mini, behaalt slechts 59,9% nauwkeurigheid, wat de aanzienlijke uitdagingen bij het oplossen van hoogwaardige wetenschappelijke problemen benadrukt. Door middel van uitgebreide foutenanalyse, het verkennen van diverse promptingstrategieën en kennisuitbreiding op basis van Retrieval-Augmented Generation (RAG), identificeren we belangrijke verbeteringsgebieden, wat de basis legt voor toekomstige vooruitgang.
English
We introduce PHYSICS, a comprehensive benchmark for university-level physics problem solving. It contains 1297 expert-annotated problems covering six core areas: classical mechanics, quantum mechanics, thermodynamics and statistical mechanics, electromagnetism, atomic physics, and optics. Each problem requires advanced physics knowledge and mathematical reasoning. We develop a robust automated evaluation system for precise and reliable validation. Our evaluation of leading foundation models reveals substantial limitations. Even the most advanced model, o3-mini, achieves only 59.9% accuracy, highlighting significant challenges in solving high-level scientific problems. Through comprehensive error analysis, exploration of diverse prompting strategies, and Retrieval-Augmented Generation (RAG)-based knowledge augmentation, we identify key areas for improvement, laying the foundation for future advancements.

Summary

AI-Generated Summary

PDF172March 31, 2025