Erkundung des MIT-Mathematik- und EECS-Curriculums mithilfe von Large Language Models
Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models
June 15, 2023
Autoren: Sarah J. Zhang, Samuel Florin, Ariel N. Lee, Eamon Niknafs, Andrei Marginean, Annie Wang, Keith Tyser, Zad Chin, Yann Hicke, Nikhil Singh, Madeleine Udell, Yoon Kim, Tonio Buonassisi, Armando Solar-Lezama, Iddo Drori
cs.AI
Zusammenfassung
Wir haben einen umfassenden Datensatz von 4.550 Fragen und Lösungen aus Übungsblättern, Zwischenprüfungen und Abschlussprüfungen aller MIT-Mathematik- und Elektrotechnik- und Informatikstudiengänge (EECS) zusammengestellt, die für den Abschluss eines Studiums erforderlich sind. Wir bewerten die Fähigkeit großer Sprachmodelle, die Abschlussanforderungen für jeden MIT-Studiengang in Mathematik und EECS zu erfüllen. Unsere Ergebnisse zeigen, dass GPT-3.5 ein Drittel des gesamten MIT-Lehrplans erfolgreich löst, während GPT-4 mit Prompt-Engineering eine perfekte Lösungsrate auf einem Testdatensatz erreicht, der Fragen basierend auf Bildern ausschließt. Wir feintunen ein Open-Source-Großsprachmodell auf diesem Datensatz. Wir verwenden GPT-4, um Modellantworten automatisch zu bewerten, und bieten eine detaillierte Leistungsaufschlüsselung nach Kurs, Frage und Antworttyp. Durch die Einbettung von Fragen in einen niedrigdimensionalen Raum untersuchen wir die Beziehungen zwischen Fragen, Themen und Kursen und entdecken, welche Fragen und Kurse für die Lösung anderer Fragen und Kurse durch Few-Shot-Lernen erforderlich sind. Unsere Analyse bietet wertvolle Einblicke in Kursvoraussetzungen und Lehrplangestaltung und hebt das Potenzial von Sprachmodellen für das Lernen und die Verbesserung der Mathematik- und EECS-Ausbildung hervor.
English
We curate a comprehensive dataset of 4,550 questions and solutions from
problem sets, midterm exams, and final exams across all MIT Mathematics and
Electrical Engineering and Computer Science (EECS) courses required for
obtaining a degree. We evaluate the ability of large language models to fulfill
the graduation requirements for any MIT major in Mathematics and EECS. Our
results demonstrate that GPT-3.5 successfully solves a third of the entire MIT
curriculum, while GPT-4, with prompt engineering, achieves a perfect solve rate
on a test set excluding questions based on images. We fine-tune an open-source
large language model on this dataset. We employ GPT-4 to automatically grade
model responses, providing a detailed performance breakdown by course,
question, and answer type. By embedding questions in a low-dimensional space,
we explore the relationships between questions, topics, and classes and
discover which questions and classes are required for solving other questions
and classes through few-shot learning. Our analysis offers valuable insights
into course prerequisites and curriculum design, highlighting language models'
potential for learning and improving Mathematics and EECS education.