Esplorazione del Curriculum di Matematica ed EECS del MIT Utilizzando Modelli Linguistici di Grande Dimensione

Abstract

Abbiamo curato un dataset completo di 4.550 domande e soluzioni tratte da problem set, esami intermedi ed esami finali di tutti i corsi di Matematica e Ingegneria Elettrica e Informatica (EECS) del MIT necessari per il conseguimento di una laurea. Valutiamo la capacità dei modelli linguistici di grandi dimensioni di soddisfare i requisiti di laurea per qualsiasi corso di laurea in Matematica e EECS del MIT. I nostri risultati dimostrano che GPT-3.5 risolve con successo un terzo dell'intero curriculum del MIT, mentre GPT-4, con l'ingegnerizzazione dei prompt, raggiunge un tasso di risoluzione perfetto su un set di test escludendo le domande basate su immagini. Abbiamo ottimizzato un modello linguistico open-source di grandi dimensioni su questo dataset. Utilizziamo GPT-4 per valutare automaticamente le risposte del modello, fornendo una dettagliata analisi delle prestazioni per corso, domanda e tipo di risposta. Incorporando le domande in uno spazio a bassa dimensionalità, esploriamo le relazioni tra domande, argomenti e corsi e scopriamo quali domande e corsi sono necessari per risolvere altre domande e corsi attraverso l'apprendimento few-shot. La nostra analisi offre preziose intuizioni sui prerequisiti dei corsi e sulla progettazione del curriculum, evidenziando il potenziale dei modelli linguistici per l'apprendimento e il miglioramento dell'educazione in Matematica e EECS.

English

We curate a comprehensive dataset of 4,550 questions and solutions from problem sets, midterm exams, and final exams across all MIT Mathematics and Electrical Engineering and Computer Science (EECS) courses required for obtaining a degree. We evaluate the ability of large language models to fulfill the graduation requirements for any MIT major in Mathematics and EECS. Our results demonstrate that GPT-3.5 successfully solves a third of the entire MIT curriculum, while GPT-4, with prompt engineering, achieves a perfect solve rate on a test set excluding questions based on images. We fine-tune an open-source large language model on this dataset. We employ GPT-4 to automatically grade model responses, providing a detailed performance breakdown by course, question, and answer type. By embedding questions in a low-dimensional space, we explore the relationships between questions, topics, and classes and discover which questions and classes are required for solving other questions and classes through few-shot learning. Our analysis offers valuable insights into course prerequisites and curriculum design, highlighting language models' potential for learning and improving Mathematics and EECS education.

Esplorazione del Curriculum di Matematica ed EECS del MIT Utilizzando Modelli Linguistici di Grande Dimensione

Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models

Abstract

Support