Исследование учебной программы MIT по математике и электротехнике и компьютерным наукам с использованием больших языковых моделей
Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models
June 15, 2023
Авторы: Sarah J. Zhang, Samuel Florin, Ariel N. Lee, Eamon Niknafs, Andrei Marginean, Annie Wang, Keith Tyser, Zad Chin, Yann Hicke, Nikhil Singh, Madeleine Udell, Yoon Kim, Tonio Buonassisi, Armando Solar-Lezama, Iddo Drori
cs.AI
Аннотация
Мы собрали всеобъемлющий набор данных, включающий 4550 вопросов и решений из задачников, промежуточных и итоговых экзаменов по всем курсам математики, электротехники и компьютерных наук (EECS) Массачусетского технологического института (MIT), необходимым для получения степени. Мы оценили способность крупных языковых моделей выполнить требования для выпуска по любому направлению математики и EECS в MIT. Наши результаты показывают, что GPT-3.5 успешно решает треть всей программы MIT, в то время как GPT-4, с использованием инженерных подсказок, достигает стопроцентного уровня решения на тестовом наборе, исключая вопросы, основанные на изображениях. Мы дообучили открытую крупную языковую модель на этом наборе данных. Мы использовали GPT-4 для автоматической оценки ответов модели, предоставив детальный анализ производительности по курсам, вопросам и типам ответов. Встраивая вопросы в низкоразмерное пространство, мы исследовали взаимосвязи между вопросами, темами и курсами и выявили, какие вопросы и курсы необходимы для решения других вопросов и курсов с помощью обучения с малым количеством примеров. Наш анализ предлагает ценные инсайты в отношении предварительных требований курсов и проектирования учебных программ, подчеркивая потенциал языковых моделей для обучения и улучшения образования в области математики и EECS.
English
We curate a comprehensive dataset of 4,550 questions and solutions from
problem sets, midterm exams, and final exams across all MIT Mathematics and
Electrical Engineering and Computer Science (EECS) courses required for
obtaining a degree. We evaluate the ability of large language models to fulfill
the graduation requirements for any MIT major in Mathematics and EECS. Our
results demonstrate that GPT-3.5 successfully solves a third of the entire MIT
curriculum, while GPT-4, with prompt engineering, achieves a perfect solve rate
on a test set excluding questions based on images. We fine-tune an open-source
large language model on this dataset. We employ GPT-4 to automatically grade
model responses, providing a detailed performance breakdown by course,
question, and answer type. By embedding questions in a low-dimensional space,
we explore the relationships between questions, topics, and classes and
discover which questions and classes are required for solving other questions
and classes through few-shot learning. Our analysis offers valuable insights
into course prerequisites and curriculum design, highlighting language models'
potential for learning and improving Mathematics and EECS education.