Het verkennen van het MIT-wiskunde- en EECS-curriculum met behulp van grote taalmmodellen
Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models
June 15, 2023
Auteurs: Sarah J. Zhang, Samuel Florin, Ariel N. Lee, Eamon Niknafs, Andrei Marginean, Annie Wang, Keith Tyser, Zad Chin, Yann Hicke, Nikhil Singh, Madeleine Udell, Yoon Kim, Tonio Buonassisi, Armando Solar-Lezama, Iddo Drori
cs.AI
Samenvatting
We hebben een uitgebreide dataset samengesteld van 4.550 vragen en oplossingen uit
probleem sets, tussentijdse examens en eindexamens van alle MIT-cursussen in Wiskunde en
Elektrotechniek en Computerwetenschappen (EECS) die vereist zijn voor het behalen van een diploma.
We evalueren het vermogen van grote taalmodellen om aan de afstudeereisen te voldoen voor elke MIT-major in Wiskunde en EECS. Onze
resultaten tonen aan dat GPT-3.5 een derde van het volledige MIT-curriculum succesvol oplost, terwijl GPT-4, met prompt engineering, een perfect oplossingspercentage
behaalt op een testset waarbij vragen gebaseerd op afbeeldingen zijn uitgesloten. We fine-tunen een open-source
groot taalmodel op deze dataset. We gebruiken GPT-4 om modelantwoorden automatisch te beoordelen, wat een gedetailleerde prestatie-analyse oplevert per cursus,
vraag en antwoordtype. Door vragen in te bedden in een laagdimensionale ruimte,
onderzoeken we de relaties tussen vragen, onderwerpen en vakken en
ontdekken we welke vragen en vakken nodig zijn om andere vragen en vakken op te lossen via few-shot learning. Onze analyse biedt waardevolle inzichten
in cursusvoorwaarden en curriculumontwerp, en benadrukt het potentieel van taalmodellen voor het leren en verbeteren van Wiskunde en EECS-onderwijs.
English
We curate a comprehensive dataset of 4,550 questions and solutions from
problem sets, midterm exams, and final exams across all MIT Mathematics and
Electrical Engineering and Computer Science (EECS) courses required for
obtaining a degree. We evaluate the ability of large language models to fulfill
the graduation requirements for any MIT major in Mathematics and EECS. Our
results demonstrate that GPT-3.5 successfully solves a third of the entire MIT
curriculum, while GPT-4, with prompt engineering, achieves a perfect solve rate
on a test set excluding questions based on images. We fine-tune an open-source
large language model on this dataset. We employ GPT-4 to automatically grade
model responses, providing a detailed performance breakdown by course,
question, and answer type. By embedding questions in a low-dimensional space,
we explore the relationships between questions, topics, and classes and
discover which questions and classes are required for solving other questions
and classes through few-shot learning. Our analysis offers valuable insights
into course prerequisites and curriculum design, highlighting language models'
potential for learning and improving Mathematics and EECS education.