Esplorazione del Curriculum di Matematica ed EECS del MIT Utilizzando Modelli Linguistici di Grande Dimensione
Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models
June 15, 2023
Autori: Sarah J. Zhang, Samuel Florin, Ariel N. Lee, Eamon Niknafs, Andrei Marginean, Annie Wang, Keith Tyser, Zad Chin, Yann Hicke, Nikhil Singh, Madeleine Udell, Yoon Kim, Tonio Buonassisi, Armando Solar-Lezama, Iddo Drori
cs.AI
Abstract
Abbiamo curato un dataset completo di 4.550 domande e soluzioni tratte da
problem set, esami intermedi ed esami finali di tutti i corsi di Matematica e
Ingegneria Elettrica e Informatica (EECS) del MIT necessari per il conseguimento
di una laurea. Valutiamo la capacità dei modelli linguistici di grandi dimensioni
di soddisfare i requisiti di laurea per qualsiasi corso di laurea in Matematica e
EECS del MIT. I nostri risultati dimostrano che GPT-3.5 risolve con successo un
terzo dell'intero curriculum del MIT, mentre GPT-4, con l'ingegnerizzazione dei
prompt, raggiunge un tasso di risoluzione perfetto su un set di test escludendo
le domande basate su immagini. Abbiamo ottimizzato un modello linguistico
open-source di grandi dimensioni su questo dataset. Utilizziamo GPT-4 per
valutare automaticamente le risposte del modello, fornendo una dettagliata
analisi delle prestazioni per corso, domanda e tipo di risposta. Incorporando le
domande in uno spazio a bassa dimensionalità, esploriamo le relazioni tra
domande, argomenti e corsi e scopriamo quali domande e corsi sono necessari
per risolvere altre domande e corsi attraverso l'apprendimento few-shot. La
nostra analisi offre preziose intuizioni sui prerequisiti dei corsi e sulla
progettazione del curriculum, evidenziando il potenziale dei modelli linguistici
per l'apprendimento e il miglioramento dell'educazione in Matematica e EECS.
English
We curate a comprehensive dataset of 4,550 questions and solutions from
problem sets, midterm exams, and final exams across all MIT Mathematics and
Electrical Engineering and Computer Science (EECS) courses required for
obtaining a degree. We evaluate the ability of large language models to fulfill
the graduation requirements for any MIT major in Mathematics and EECS. Our
results demonstrate that GPT-3.5 successfully solves a third of the entire MIT
curriculum, while GPT-4, with prompt engineering, achieves a perfect solve rate
on a test set excluding questions based on images. We fine-tune an open-source
large language model on this dataset. We employ GPT-4 to automatically grade
model responses, providing a detailed performance breakdown by course,
question, and answer type. By embedding questions in a low-dimensional space,
we explore the relationships between questions, topics, and classes and
discover which questions and classes are required for solving other questions
and classes through few-shot learning. Our analysis offers valuable insights
into course prerequisites and curriculum design, highlighting language models'
potential for learning and improving Mathematics and EECS education.