ChatPaper.aiChatPaper

PHYSIQUE : Évaluation des modèles de fondation sur la résolution de problèmes de physique universitaire

PHYSICS: Benchmarking Foundation Models on University-Level Physics Problem Solving

March 26, 2025
Auteurs: Kaiyue Feng, Yilun Zhao, Yixin Liu, Tianyu Yang, Chen Zhao, John Sous, Arman Cohan
cs.AI

Résumé

Nous présentons PHYSICS, un benchmark complet pour la résolution de problèmes de physique universitaire. Il contient 1297 problèmes annotés par des experts, couvrant six domaines fondamentaux : mécanique classique, mécanique quantique, thermodynamique et mécanique statistique, électromagnétisme, physique atomique et optique. Chaque problème nécessite une connaissance approfondie de la physique et un raisonnement mathématique avancé. Nous avons développé un système d'évaluation automatisé robuste pour une validation précise et fiable. Notre évaluation des modèles de base les plus performants révèle des limitations substantielles. Même le modèle le plus avancé, o3-mini, n'atteint qu'une précision de 59,9 %, mettant en évidence les défis importants liés à la résolution de problèmes scientifiques de haut niveau. Grâce à une analyse approfondie des erreurs, à l'exploration de diverses stratégies de prompting et à l'augmentation des connaissances basée sur la génération assistée par récupération (RAG), nous identifions des axes clés d'amélioration, jetant ainsi les bases pour des avancées futures.
English
We introduce PHYSICS, a comprehensive benchmark for university-level physics problem solving. It contains 1297 expert-annotated problems covering six core areas: classical mechanics, quantum mechanics, thermodynamics and statistical mechanics, electromagnetism, atomic physics, and optics. Each problem requires advanced physics knowledge and mathematical reasoning. We develop a robust automated evaluation system for precise and reliable validation. Our evaluation of leading foundation models reveals substantial limitations. Even the most advanced model, o3-mini, achieves only 59.9% accuracy, highlighting significant challenges in solving high-level scientific problems. Through comprehensive error analysis, exploration of diverse prompting strategies, and Retrieval-Augmented Generation (RAG)-based knowledge augmentation, we identify key areas for improvement, laying the foundation for future advancements.

Summary

AI-Generated Summary

PDF172March 31, 2025