ChatPaper.aiChatPaper

物理学:大学レベルの物理問題解決における基盤モデルのベンチマーキング

PHYSICS: Benchmarking Foundation Models on University-Level Physics Problem Solving

March 26, 2025
著者: Kaiyue Feng, Yilun Zhao, Yixin Liu, Tianyu Yang, Chen Zhao, John Sous, Arman Cohan
cs.AI

要旨

我々は、大学レベルの物理学問題解決のための包括的なベンチマーク「PHYSICS」を紹介する。このベンチマークは、古典力学、量子力学、熱力学・統計力学、電磁気学、原子物理学、光学の6つの主要分野をカバーする1297の専門家注釈付き問題を含んでいる。各問題は高度な物理学知識と数学的推論を必要とする。我々は、正確で信頼性の高い検証のための堅牢な自動評価システムを開発した。主要な基盤モデルの評価を通じて、重大な限界が明らかになった。最も先進的なモデルであるo3-miniでさえ、59.9%の精度しか達成できず、高レベルの科学的問題解決における重大な課題が浮き彫りとなった。包括的なエラー分析、多様なプロンプト戦略の探索、およびRetrieval-Augmented Generation(RAG)に基づく知識拡張を通じて、改善すべき重要な領域を特定し、今後の進歩の基盤を築いた。
English
We introduce PHYSICS, a comprehensive benchmark for university-level physics problem solving. It contains 1297 expert-annotated problems covering six core areas: classical mechanics, quantum mechanics, thermodynamics and statistical mechanics, electromagnetism, atomic physics, and optics. Each problem requires advanced physics knowledge and mathematical reasoning. We develop a robust automated evaluation system for precise and reliable validation. Our evaluation of leading foundation models reveals substantial limitations. Even the most advanced model, o3-mini, achieves only 59.9% accuracy, highlighting significant challenges in solving high-level scientific problems. Through comprehensive error analysis, exploration of diverse prompting strategies, and Retrieval-Augmented Generation (RAG)-based knowledge augmentation, we identify key areas for improvement, laying the foundation for future advancements.

Summary

AI-Generated Summary

PDF172March 31, 2025