ChatPaper.aiChatPaper

PHYSIK: Evaluierung von Foundation Models bei der Lösung universitätsrelevanter Physikprobleme

PHYSICS: Benchmarking Foundation Models on University-Level Physics Problem Solving

March 26, 2025
Autoren: Kaiyue Feng, Yilun Zhao, Yixin Liu, Tianyu Yang, Chen Zhao, John Sous, Arman Cohan
cs.AI

Zusammenfassung

Wir stellen PHYSICS vor, einen umfassenden Benchmark für die Lösung von Physikproblemen auf Universitätsniveau. Er umfasst 1297 von Experten annotierte Probleme aus sechs Kernbereichen: klassische Mechanik, Quantenmechanik, Thermodynamik und statistische Mechanik, Elektromagnetismus, Atomphysik und Optik. Jedes Problem erfordert fortgeschrittenes physikalisches Wissen und mathematisches Denken. Wir entwickeln ein robustes automatisiertes Bewertungssystem für eine präzise und zuverlässige Validierung. Unsere Bewertung führender Basismodelle zeigt erhebliche Einschränkungen auf. Selbst das fortschrittlichste Modell, o3-mini, erreicht nur eine Genauigkeit von 59,9 %, was die erheblichen Herausforderungen bei der Lösung hochwissenschaftlicher Probleme verdeutlicht. Durch eine umfassende Fehleranalyse, die Erforschung verschiedener Prompting-Strategien und die wissensbasierte Erweiterung mittels Retrieval-Augmented Generation (RAG) identifizieren wir Schlüsselbereiche für Verbesserungen und legen die Grundlage für zukünftige Fortschritte.
English
We introduce PHYSICS, a comprehensive benchmark for university-level physics problem solving. It contains 1297 expert-annotated problems covering six core areas: classical mechanics, quantum mechanics, thermodynamics and statistical mechanics, electromagnetism, atomic physics, and optics. Each problem requires advanced physics knowledge and mathematical reasoning. We develop a robust automated evaluation system for precise and reliable validation. Our evaluation of leading foundation models reveals substantial limitations. Even the most advanced model, o3-mini, achieves only 59.9% accuracy, highlighting significant challenges in solving high-level scientific problems. Through comprehensive error analysis, exploration of diverse prompting strategies, and Retrieval-Augmented Generation (RAG)-based knowledge augmentation, we identify key areas for improvement, laying the foundation for future advancements.

Summary

AI-Generated Summary

PDF172March 31, 2025