PHYSIQUE : Évaluation des modèles de fondation sur la résolution de problèmes de physique universitaire
PHYSICS: Benchmarking Foundation Models on University-Level Physics Problem Solving
March 26, 2025
Auteurs: Kaiyue Feng, Yilun Zhao, Yixin Liu, Tianyu Yang, Chen Zhao, John Sous, Arman Cohan
cs.AI
Résumé
Nous présentons PHYSICS, un benchmark complet pour la résolution de problèmes de physique universitaire. Il contient 1297 problèmes annotés par des experts, couvrant six domaines fondamentaux : mécanique classique, mécanique quantique, thermodynamique et mécanique statistique, électromagnétisme, physique atomique et optique. Chaque problème nécessite une connaissance approfondie de la physique et un raisonnement mathématique avancé. Nous avons développé un système d'évaluation automatisé robuste pour une validation précise et fiable. Notre évaluation des modèles de base les plus performants révèle des limitations substantielles. Même le modèle le plus avancé, o3-mini, n'atteint qu'une précision de 59,9 %, mettant en évidence les défis importants liés à la résolution de problèmes scientifiques de haut niveau. Grâce à une analyse approfondie des erreurs, à l'exploration de diverses stratégies de prompting et à l'augmentation des connaissances basée sur la génération assistée par récupération (RAG), nous identifions des axes clés d'amélioration, jetant ainsi les bases pour des avancées futures.
English
We introduce PHYSICS, a comprehensive benchmark for university-level physics
problem solving. It contains 1297 expert-annotated problems covering six core
areas: classical mechanics, quantum mechanics, thermodynamics and statistical
mechanics, electromagnetism, atomic physics, and optics. Each problem requires
advanced physics knowledge and mathematical reasoning. We develop a robust
automated evaluation system for precise and reliable validation. Our evaluation
of leading foundation models reveals substantial limitations. Even the most
advanced model, o3-mini, achieves only 59.9% accuracy, highlighting significant
challenges in solving high-level scientific problems. Through comprehensive
error analysis, exploration of diverse prompting strategies, and
Retrieval-Augmented Generation (RAG)-based knowledge augmentation, we identify
key areas for improvement, laying the foundation for future advancements.Summary
AI-Generated Summary