Exploration du programme de mathématiques et d'EECS du MIT à l'aide de modèles de langage à grande échelle
Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models
June 15, 2023
Auteurs: Sarah J. Zhang, Samuel Florin, Ariel N. Lee, Eamon Niknafs, Andrei Marginean, Annie Wang, Keith Tyser, Zad Chin, Yann Hicke, Nikhil Singh, Madeleine Udell, Yoon Kim, Tonio Buonassisi, Armando Solar-Lezama, Iddo Drori
cs.AI
Résumé
Nous avons constitué un ensemble de données complet comprenant 4 550 questions et leurs solutions issues de séries d'exercices, d'examens partiels et d'examens finaux de tous les cours de mathématiques et de génie électrique et informatique (EECS) du MIT requis pour l'obtention d'un diplôme. Nous évaluons la capacité des grands modèles de langage à satisfaire les exigences de diplôme pour toute majeure en mathématiques et EECS au MIT. Nos résultats montrent que GPT-3.5 résout avec succès un tiers de l'ensemble du programme du MIT, tandis que GPT-4, grâce à l'ingénierie des prompts, atteint un taux de résolution parfait sur un ensemble de test excluant les questions basées sur des images. Nous avons affiné un grand modèle de langage open-source sur cet ensemble de données. Nous utilisons GPT-4 pour évaluer automatiquement les réponses du modèle, fournissant une analyse détaillée des performances par cours, question et type de réponse. En intégrant les questions dans un espace de faible dimension, nous explorons les relations entre les questions, les sujets et les classes, et découvrons quelles questions et classes sont nécessaires pour résoudre d'autres questions et classes grâce à l'apprentissage en few-shot. Notre analyse offre des perspectives précieuses sur les prérequis des cours et la conception des programmes, mettant en lumière le potentiel des modèles de langage pour l'apprentissage et l'amélioration de l'enseignement des mathématiques et de l'EECS.
English
We curate a comprehensive dataset of 4,550 questions and solutions from
problem sets, midterm exams, and final exams across all MIT Mathematics and
Electrical Engineering and Computer Science (EECS) courses required for
obtaining a degree. We evaluate the ability of large language models to fulfill
the graduation requirements for any MIT major in Mathematics and EECS. Our
results demonstrate that GPT-3.5 successfully solves a third of the entire MIT
curriculum, while GPT-4, with prompt engineering, achieves a perfect solve rate
on a test set excluding questions based on images. We fine-tune an open-source
large language model on this dataset. We employ GPT-4 to automatically grade
model responses, providing a detailed performance breakdown by course,
question, and answer type. By embedding questions in a low-dimensional space,
we explore the relationships between questions, topics, and classes and
discover which questions and classes are required for solving other questions
and classes through few-shot learning. Our analysis offers valuable insights
into course prerequisites and curriculum design, highlighting language models'
potential for learning and improving Mathematics and EECS education.