Explorando o Currículo de Matemática e EECS do MIT Usando Modelos de Linguagem de Grande Escala
Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models
June 15, 2023
Autores: Sarah J. Zhang, Samuel Florin, Ariel N. Lee, Eamon Niknafs, Andrei Marginean, Annie Wang, Keith Tyser, Zad Chin, Yann Hicke, Nikhil Singh, Madeleine Udell, Yoon Kim, Tonio Buonassisi, Armando Solar-Lezama, Iddo Drori
cs.AI
Resumo
Nós compilamos um conjunto de dados abrangente de 4.550 questões e soluções provenientes de listas de exercícios, provas intermediárias e finais de todos os cursos de Matemática e Engenharia Elétrica e Ciência da Computação (EECS) do MIT necessários para a obtenção de um diploma. Avaliamos a capacidade de modelos de linguagem de grande escala em cumprir os requisitos de graduação para qualquer curso de Matemática e EECS do MIT. Nossos resultados demonstram que o GPT-3.5 resolve com sucesso um terço de todo o currículo do MIT, enquanto o GPT-4, com engenharia de prompts, alcança uma taxa de acerto perfeita em um conjunto de teste que exclui questões baseadas em imagens. Ajustamos um modelo de linguagem de grande escala de código aberto nesse conjunto de dados. Utilizamos o GPT-4 para avaliar automaticamente as respostas do modelo, fornecendo uma análise detalhada de desempenho por curso, questão e tipo de resposta. Ao incorporar as questões em um espaço de baixa dimensionalidade, exploramos as relações entre questões, tópicos e disciplinas, e descobrimos quais questões e classes são necessárias para resolver outras questões e classes por meio de aprendizado few-shot. Nossa análise oferece insights valiosos sobre pré-requisitos de cursos e design de currículo, destacando o potencial dos modelos de linguagem para aprender e melhorar o ensino de Matemática e EECS.
English
We curate a comprehensive dataset of 4,550 questions and solutions from
problem sets, midterm exams, and final exams across all MIT Mathematics and
Electrical Engineering and Computer Science (EECS) courses required for
obtaining a degree. We evaluate the ability of large language models to fulfill
the graduation requirements for any MIT major in Mathematics and EECS. Our
results demonstrate that GPT-3.5 successfully solves a third of the entire MIT
curriculum, while GPT-4, with prompt engineering, achieves a perfect solve rate
on a test set excluding questions based on images. We fine-tune an open-source
large language model on this dataset. We employ GPT-4 to automatically grade
model responses, providing a detailed performance breakdown by course,
question, and answer type. By embedding questions in a low-dimensional space,
we explore the relationships between questions, topics, and classes and
discover which questions and classes are required for solving other questions
and classes through few-shot learning. Our analysis offers valuable insights
into course prerequisites and curriculum design, highlighting language models'
potential for learning and improving Mathematics and EECS education.