PHYSIK: Evaluierung von Foundation Models bei der Lösung universitätsrelevanter Physikprobleme
PHYSICS: Benchmarking Foundation Models on University-Level Physics Problem Solving
March 26, 2025
Autoren: Kaiyue Feng, Yilun Zhao, Yixin Liu, Tianyu Yang, Chen Zhao, John Sous, Arman Cohan
cs.AI
Zusammenfassung
Wir stellen PHYSICS vor, einen umfassenden Benchmark für die Lösung von Physikproblemen auf Universitätsniveau. Er umfasst 1297 von Experten annotierte Probleme aus sechs Kernbereichen: klassische Mechanik, Quantenmechanik, Thermodynamik und statistische Mechanik, Elektromagnetismus, Atomphysik und Optik. Jedes Problem erfordert fortgeschrittenes physikalisches Wissen und mathematisches Denken. Wir entwickeln ein robustes automatisiertes Bewertungssystem für eine präzise und zuverlässige Validierung. Unsere Bewertung führender Basismodelle zeigt erhebliche Einschränkungen auf. Selbst das fortschrittlichste Modell, o3-mini, erreicht nur eine Genauigkeit von 59,9 %, was die erheblichen Herausforderungen bei der Lösung hochwissenschaftlicher Probleme verdeutlicht. Durch eine umfassende Fehleranalyse, die Erforschung verschiedener Prompting-Strategien und die wissensbasierte Erweiterung mittels Retrieval-Augmented Generation (RAG) identifizieren wir Schlüsselbereiche für Verbesserungen und legen die Grundlage für zukünftige Fortschritte.
English
We introduce PHYSICS, a comprehensive benchmark for university-level physics
problem solving. It contains 1297 expert-annotated problems covering six core
areas: classical mechanics, quantum mechanics, thermodynamics and statistical
mechanics, electromagnetism, atomic physics, and optics. Each problem requires
advanced physics knowledge and mathematical reasoning. We develop a robust
automated evaluation system for precise and reliable validation. Our evaluation
of leading foundation models reveals substantial limitations. Even the most
advanced model, o3-mini, achieves only 59.9% accuracy, highlighting significant
challenges in solving high-level scientific problems. Through comprehensive
error analysis, exploration of diverse prompting strategies, and
Retrieval-Augmented Generation (RAG)-based knowledge augmentation, we identify
key areas for improvement, laying the foundation for future advancements.Summary
AI-Generated Summary