ChatPaper.aiChatPaper

대형 언어 모델을 활용한 MIT 수학 및 EECS 커리큘럼 탐구

Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models

June 15, 2023
저자: Sarah J. Zhang, Samuel Florin, Ariel N. Lee, Eamon Niknafs, Andrei Marginean, Annie Wang, Keith Tyser, Zad Chin, Yann Hicke, Nikhil Singh, Madeleine Udell, Yoon Kim, Tonio Buonassisi, Armando Solar-Lezama, Iddo Drori
cs.AI

초록

우리는 MIT 수학 및 전기공학과 컴퓨터과학(EECS) 학위 취득에 필요한 모든 강좌의 문제 세트, 중간고사, 기말고사에서 4,550개의 질문과 해답으로 구성된 포괄적인 데이터셋을 정리했습니다. 우리는 대형 언어 모델이 MIT 수학 및 EECS 전공의 졸업 요건을 충족할 수 있는 능력을 평가합니다. 우리의 결과는 GPT-3.5가 전체 MIT 커리큘럼의 3분의 1을 성공적으로 해결하는 반면, 프롬프트 엔지니어링을 적용한 GPT-4는 이미지 기반 질문을 제외한 테스트 세트에서 완벽한 해결률을 달성함을 보여줍니다. 우리는 이 데이터셋을 사용하여 오픈소스 대형 언어 모델을 미세 조정했습니다. 또한 GPT-4를 활용해 모델 응답을 자동으로 채점하고, 강좌, 질문, 답변 유형별로 상세한 성능 분석을 제공합니다. 질문을 저차원 공간에 임베딩함으로써, 우리는 질문, 주제, 강좌 간의 관계를 탐구하고 소수 샷 학습을 통해 다른 질문과 강좌를 해결하는 데 필요한 질문과 강좌를 발견합니다. 우리의 분석은 강좌 선수과목 및 커리큘럼 설계에 대한 유용한 통찰을 제공하며, 언어 모델이 수학 및 EECS 교육을 학습하고 개선하는 데 있어 잠재력을 강조합니다.
English
We curate a comprehensive dataset of 4,550 questions and solutions from problem sets, midterm exams, and final exams across all MIT Mathematics and Electrical Engineering and Computer Science (EECS) courses required for obtaining a degree. We evaluate the ability of large language models to fulfill the graduation requirements for any MIT major in Mathematics and EECS. Our results demonstrate that GPT-3.5 successfully solves a third of the entire MIT curriculum, while GPT-4, with prompt engineering, achieves a perfect solve rate on a test set excluding questions based on images. We fine-tune an open-source large language model on this dataset. We employ GPT-4 to automatically grade model responses, providing a detailed performance breakdown by course, question, and answer type. By embedding questions in a low-dimensional space, we explore the relationships between questions, topics, and classes and discover which questions and classes are required for solving other questions and classes through few-shot learning. Our analysis offers valuable insights into course prerequisites and curriculum design, highlighting language models' potential for learning and improving Mathematics and EECS education.
PDF92December 15, 2024