ChatPaper.aiChatPaper

Explorando el Plan de Estudios de Matemáticas y EECS del MIT Utilizando Modelos de Lenguaje a Gran Escala

Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models

June 15, 2023
Autores: Sarah J. Zhang, Samuel Florin, Ariel N. Lee, Eamon Niknafs, Andrei Marginean, Annie Wang, Keith Tyser, Zad Chin, Yann Hicke, Nikhil Singh, Madeleine Udell, Yoon Kim, Tonio Buonassisi, Armando Solar-Lezama, Iddo Drori
cs.AI

Resumen

Recopilamos un conjunto de datos exhaustivo de 4,550 preguntas y soluciones provenientes de conjuntos de problemas, exámenes parciales y finales de todos los cursos de Matemáticas e Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT necesarios para obtener un título. Evaluamos la capacidad de los modelos de lenguaje grandes para cumplir con los requisitos de graduación de cualquier especialización en Matemáticas y EECS del MIT. Nuestros resultados demuestran que GPT-3.5 resuelve exitosamente un tercio de todo el plan de estudios del MIT, mientras que GPT-4, con ingeniería de prompts, logra una tasa de resolución perfecta en un conjunto de prueba que excluye preguntas basadas en imágenes. Ajustamos un modelo de lenguaje grande de código abierto utilizando este conjunto de datos. Empleamos GPT-4 para calificar automáticamente las respuestas del modelo, proporcionando un desglose detallado del rendimiento por curso, pregunta y tipo de respuesta. Al incrustar las preguntas en un espacio de baja dimensionalidad, exploramos las relaciones entre preguntas, temas y clases, y descubrimos qué preguntas y clases son necesarias para resolver otras preguntas y clases mediante aprendizaje con pocos ejemplos. Nuestro análisis ofrece valiosas perspectivas sobre los prerrequisitos de los cursos y el diseño del plan de estudios, destacando el potencial de los modelos de lenguaje para aprender y mejorar la educación en Matemáticas y EECS.
English
We curate a comprehensive dataset of 4,550 questions and solutions from problem sets, midterm exams, and final exams across all MIT Mathematics and Electrical Engineering and Computer Science (EECS) courses required for obtaining a degree. We evaluate the ability of large language models to fulfill the graduation requirements for any MIT major in Mathematics and EECS. Our results demonstrate that GPT-3.5 successfully solves a third of the entire MIT curriculum, while GPT-4, with prompt engineering, achieves a perfect solve rate on a test set excluding questions based on images. We fine-tune an open-source large language model on this dataset. We employ GPT-4 to automatically grade model responses, providing a detailed performance breakdown by course, question, and answer type. By embedding questions in a low-dimensional space, we explore the relationships between questions, topics, and classes and discover which questions and classes are required for solving other questions and classes through few-shot learning. Our analysis offers valuable insights into course prerequisites and curriculum design, highlighting language models' potential for learning and improving Mathematics and EECS education.
PDF92December 15, 2024