Erkundung des MIT-Mathematik- und EECS-Curriculums mithilfe von Large Language Models

Zusammenfassung

Wir haben einen umfassenden Datensatz von 4.550 Fragen und Lösungen aus Übungsblättern, Zwischenprüfungen und Abschlussprüfungen aller MIT-Mathematik- und Elektrotechnik- und Informatikstudiengänge (EECS) zusammengestellt, die für den Abschluss eines Studiums erforderlich sind. Wir bewerten die Fähigkeit großer Sprachmodelle, die Abschlussanforderungen für jeden MIT-Studiengang in Mathematik und EECS zu erfüllen. Unsere Ergebnisse zeigen, dass GPT-3.5 ein Drittel des gesamten MIT-Lehrplans erfolgreich löst, während GPT-4 mit Prompt-Engineering eine perfekte Lösungsrate auf einem Testdatensatz erreicht, der Fragen basierend auf Bildern ausschließt. Wir feintunen ein Open-Source-Großsprachmodell auf diesem Datensatz. Wir verwenden GPT-4, um Modellantworten automatisch zu bewerten, und bieten eine detaillierte Leistungsaufschlüsselung nach Kurs, Frage und Antworttyp. Durch die Einbettung von Fragen in einen niedrigdimensionalen Raum untersuchen wir die Beziehungen zwischen Fragen, Themen und Kursen und entdecken, welche Fragen und Kurse für die Lösung anderer Fragen und Kurse durch Few-Shot-Lernen erforderlich sind. Unsere Analyse bietet wertvolle Einblicke in Kursvoraussetzungen und Lehrplangestaltung und hebt das Potenzial von Sprachmodellen für das Lernen und die Verbesserung der Mathematik- und EECS-Ausbildung hervor.

English

We curate a comprehensive dataset of 4,550 questions and solutions from problem sets, midterm exams, and final exams across all MIT Mathematics and Electrical Engineering and Computer Science (EECS) courses required for obtaining a degree. We evaluate the ability of large language models to fulfill the graduation requirements for any MIT major in Mathematics and EECS. Our results demonstrate that GPT-3.5 successfully solves a third of the entire MIT curriculum, while GPT-4, with prompt engineering, achieves a perfect solve rate on a test set excluding questions based on images. We fine-tune an open-source large language model on this dataset. We employ GPT-4 to automatically grade model responses, providing a detailed performance breakdown by course, question, and answer type. By embedding questions in a low-dimensional space, we explore the relationships between questions, topics, and classes and discover which questions and classes are required for solving other questions and classes through few-shot learning. Our analysis offers valuable insights into course prerequisites and curriculum design, highlighting language models' potential for learning and improving Mathematics and EECS education.

Erkundung des MIT-Mathematik- und EECS-Curriculums mithilfe von Large Language Models

Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models

Zusammenfassung

Support