ChatPaper.aiChatPaper

물리학: 대학 수준 물리 문제 해결에서 파운데이션 모델 벤치마킹

PHYSICS: Benchmarking Foundation Models on University-Level Physics Problem Solving

March 26, 2025
저자: Kaiyue Feng, Yilun Zhao, Yixin Liu, Tianyu Yang, Chen Zhao, John Sous, Arman Cohan
cs.AI

초록

우리는 대학 수준의 물리학 문제 해결을 위한 포괄적인 벤치마크인 PHYSICS를 소개한다. 이 벤치마크는 고전역학, 양자역학, 열역학 및 통계역학, 전자기학, 원자물리학, 광학 등 6가지 핵심 영역을 아우르는 1,297개의 전문가 주석이 달린 문제로 구성되어 있다. 각 문제는 고급 물리학 지식과 수학적 추론을 요구한다. 우리는 정확하고 신뢰할 수 있는 검증을 위해 견고한 자동 평가 시스템을 개발했다. 주요 기초 모델에 대한 평가 결과, 상당한 한계가 드러났다. 가장 발전된 모델인 o3-mini조차도 59.9%의 정확도만 달성하며, 고급 과학 문제 해결에 있어 상당한 도전 과제가 있음을 보여준다. 포괄적인 오류 분석, 다양한 프롬프트 전략 탐색, 그리고 검색-증강 생성(Retrieval-Augmented Generation, RAG) 기반 지식 증강을 통해, 우리는 향후 발전을 위한 개선이 필요한 주요 영역을 식별하고 이를 위한 기반을 마련했다.
English
We introduce PHYSICS, a comprehensive benchmark for university-level physics problem solving. It contains 1297 expert-annotated problems covering six core areas: classical mechanics, quantum mechanics, thermodynamics and statistical mechanics, electromagnetism, atomic physics, and optics. Each problem requires advanced physics knowledge and mathematical reasoning. We develop a robust automated evaluation system for precise and reliable validation. Our evaluation of leading foundation models reveals substantial limitations. Even the most advanced model, o3-mini, achieves only 59.9% accuracy, highlighting significant challenges in solving high-level scientific problems. Through comprehensive error analysis, exploration of diverse prompting strategies, and Retrieval-Augmented Generation (RAG)-based knowledge augmentation, we identify key areas for improvement, laying the foundation for future advancements.

Summary

AI-Generated Summary

PDF172March 31, 2025