大規模言語モデルを用いたMIT数学およびEECSカリキュラムの探索
Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models
June 15, 2023
著者: Sarah J. Zhang, Samuel Florin, Ariel N. Lee, Eamon Niknafs, Andrei Marginean, Annie Wang, Keith Tyser, Zad Chin, Yann Hicke, Nikhil Singh, Madeleine Udell, Yoon Kim, Tonio Buonassisi, Armando Solar-Lezama, Iddo Drori
cs.AI
要旨
MITの数学および電気工学・コンピュータサイエンス(EECS)の学位取得に必要な全コースから、問題集、中間試験、期末試験に基づく4,550問の質問と解答を網羅したデータセットを構築しました。我々は、大規模言語モデルがMITの数学およびEECS専攻の卒業要件を満たす能力を評価します。その結果、GPT-3.5はMITカリキュラム全体の3分の1を成功裏に解決し、プロンプトエンジニアリングを施したGPT-4は、画像に基づく問題を除いたテストセットにおいて完全な正答率を達成しました。このデータセットを用いて、オープンソースの大規模言語モデルをファインチューニングしました。GPT-4を活用してモデルの回答を自動採点し、コース、質問、回答タイプごとの詳細なパフォーマンス分析を提供します。質問を低次元空間に埋め込むことで、質問、トピック、クラス間の関係性を探り、few-shot学習を通じて他の質問やクラスを解決するために必要な質問とクラスを特定しました。本分析は、コースの前提条件とカリキュラム設計に関する貴重な洞察を提供し、言語モデルが数学およびEECS教育の学習と改善に果たす可能性を明らかにしています。
English
We curate a comprehensive dataset of 4,550 questions and solutions from
problem sets, midterm exams, and final exams across all MIT Mathematics and
Electrical Engineering and Computer Science (EECS) courses required for
obtaining a degree. We evaluate the ability of large language models to fulfill
the graduation requirements for any MIT major in Mathematics and EECS. Our
results demonstrate that GPT-3.5 successfully solves a third of the entire MIT
curriculum, while GPT-4, with prompt engineering, achieves a perfect solve rate
on a test set excluding questions based on images. We fine-tune an open-source
large language model on this dataset. We employ GPT-4 to automatically grade
model responses, providing a detailed performance breakdown by course,
question, and answer type. By embedding questions in a low-dimensional space,
we explore the relationships between questions, topics, and classes and
discover which questions and classes are required for solving other questions
and classes through few-shot learning. Our analysis offers valuable insights
into course prerequisites and curriculum design, highlighting language models'
potential for learning and improving Mathematics and EECS education.