Explorando o Currículo de Matemática e EECS do MIT Usando Modelos de Linguagem de Grande Escala

Resumo

Nós compilamos um conjunto de dados abrangente de 4.550 questões e soluções provenientes de listas de exercícios, provas intermediárias e finais de todos os cursos de Matemática e Engenharia Elétrica e Ciência da Computação (EECS) do MIT necessários para a obtenção de um diploma. Avaliamos a capacidade de modelos de linguagem de grande escala em cumprir os requisitos de graduação para qualquer curso de Matemática e EECS do MIT. Nossos resultados demonstram que o GPT-3.5 resolve com sucesso um terço de todo o currículo do MIT, enquanto o GPT-4, com engenharia de prompts, alcança uma taxa de acerto perfeita em um conjunto de teste que exclui questões baseadas em imagens. Ajustamos um modelo de linguagem de grande escala de código aberto nesse conjunto de dados. Utilizamos o GPT-4 para avaliar automaticamente as respostas do modelo, fornecendo uma análise detalhada de desempenho por curso, questão e tipo de resposta. Ao incorporar as questões em um espaço de baixa dimensionalidade, exploramos as relações entre questões, tópicos e disciplinas, e descobrimos quais questões e classes são necessárias para resolver outras questões e classes por meio de aprendizado few-shot. Nossa análise oferece insights valiosos sobre pré-requisitos de cursos e design de currículo, destacando o potencial dos modelos de linguagem para aprender e melhorar o ensino de Matemática e EECS.

English

We curate a comprehensive dataset of 4,550 questions and solutions from problem sets, midterm exams, and final exams across all MIT Mathematics and Electrical Engineering and Computer Science (EECS) courses required for obtaining a degree. We evaluate the ability of large language models to fulfill the graduation requirements for any MIT major in Mathematics and EECS. Our results demonstrate that GPT-3.5 successfully solves a third of the entire MIT curriculum, while GPT-4, with prompt engineering, achieves a perfect solve rate on a test set excluding questions based on images. We fine-tune an open-source large language model on this dataset. We employ GPT-4 to automatically grade model responses, providing a detailed performance breakdown by course, question, and answer type. By embedding questions in a low-dimensional space, we explore the relationships between questions, topics, and classes and discover which questions and classes are required for solving other questions and classes through few-shot learning. Our analysis offers valuable insights into course prerequisites and curriculum design, highlighting language models' potential for learning and improving Mathematics and EECS education.

Explorando o Currículo de Matemática e EECS do MIT Usando Modelos de Linguagem de Grande Escala

Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models

Resumo

Support