Het verkennen van het MIT-wiskunde- en EECS-curriculum met behulp van grote taalmmodellen

Samenvatting

We hebben een uitgebreide dataset samengesteld van 4.550 vragen en oplossingen uit probleem sets, tussentijdse examens en eindexamens van alle MIT-cursussen in Wiskunde en Elektrotechniek en Computerwetenschappen (EECS) die vereist zijn voor het behalen van een diploma. We evalueren het vermogen van grote taalmodellen om aan de afstudeereisen te voldoen voor elke MIT-major in Wiskunde en EECS. Onze resultaten tonen aan dat GPT-3.5 een derde van het volledige MIT-curriculum succesvol oplost, terwijl GPT-4, met prompt engineering, een perfect oplossingspercentage behaalt op een testset waarbij vragen gebaseerd op afbeeldingen zijn uitgesloten. We fine-tunen een open-source groot taalmodel op deze dataset. We gebruiken GPT-4 om modelantwoorden automatisch te beoordelen, wat een gedetailleerde prestatie-analyse oplevert per cursus, vraag en antwoordtype. Door vragen in te bedden in een laagdimensionale ruimte, onderzoeken we de relaties tussen vragen, onderwerpen en vakken en ontdekken we welke vragen en vakken nodig zijn om andere vragen en vakken op te lossen via few-shot learning. Onze analyse biedt waardevolle inzichten in cursusvoorwaarden en curriculumontwerp, en benadrukt het potentieel van taalmodellen voor het leren en verbeteren van Wiskunde en EECS-onderwijs.

English

We curate a comprehensive dataset of 4,550 questions and solutions from problem sets, midterm exams, and final exams across all MIT Mathematics and Electrical Engineering and Computer Science (EECS) courses required for obtaining a degree. We evaluate the ability of large language models to fulfill the graduation requirements for any MIT major in Mathematics and EECS. Our results demonstrate that GPT-3.5 successfully solves a third of the entire MIT curriculum, while GPT-4, with prompt engineering, achieves a perfect solve rate on a test set excluding questions based on images. We fine-tune an open-source large language model on this dataset. We employ GPT-4 to automatically grade model responses, providing a detailed performance breakdown by course, question, and answer type. By embedding questions in a low-dimensional space, we explore the relationships between questions, topics, and classes and discover which questions and classes are required for solving other questions and classes through few-shot learning. Our analysis offers valuable insights into course prerequisites and curriculum design, highlighting language models' potential for learning and improving Mathematics and EECS education.

Het verkennen van het MIT-wiskunde- en EECS-curriculum met behulp van grote taalmmodellen

Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models

Samenvatting

Support