NATUURKUNDE: Het benchmarken van foundation models op universitair niveau voor het oplossen van natuurkundeproblemen

Samenvatting

We introduceren PHYSICS, een uitgebreide benchmark voor het oplossen van problemen op universitair niveau in de natuurkunde. Het bevat 1297 expert-geannoteerde problemen die zes kerngebieden beslaan: klassieke mechanica, kwantummechanica, thermodynamica en statistische mechanica, elektromagnetisme, atoomfysica en optica. Elk probleem vereist geavanceerde natuurkundige kennis en wiskundig redeneren. We ontwikkelen een robuust geautomatiseerd evaluatiesysteem voor nauwkeurige en betrouwbare validatie. Onze evaluatie van toonaangevende foundationmodellen onthult aanzienlijke beperkingen. Zelfs het meest geavanceerde model, o3-mini, behaalt slechts 59,9% nauwkeurigheid, wat de aanzienlijke uitdagingen bij het oplossen van hoogwaardige wetenschappelijke problemen benadrukt. Door middel van uitgebreide foutenanalyse, het verkennen van diverse promptingstrategieën en kennisuitbreiding op basis van Retrieval-Augmented Generation (RAG), identificeren we belangrijke verbeteringsgebieden, wat de basis legt voor toekomstige vooruitgang.

English

We introduce PHYSICS, a comprehensive benchmark for university-level physics problem solving. It contains 1297 expert-annotated problems covering six core areas: classical mechanics, quantum mechanics, thermodynamics and statistical mechanics, electromagnetism, atomic physics, and optics. Each problem requires advanced physics knowledge and mathematical reasoning. We develop a robust automated evaluation system for precise and reliable validation. Our evaluation of leading foundation models reveals substantial limitations. Even the most advanced model, o3-mini, achieves only 59.9% accuracy, highlighting significant challenges in solving high-level scientific problems. Through comprehensive error analysis, exploration of diverse prompting strategies, and Retrieval-Augmented Generation (RAG)-based knowledge augmentation, we identify key areas for improvement, laying the foundation for future advancements.

NATUURKUNDE: Het benchmarken van foundation models op universitair niveau voor het oplossen van natuurkundeproblemen

PHYSICS: Benchmarking Foundation Models on University-Level Physics Problem Solving

Samenvatting

Support