ChatPaper.aiChatPaper

IA Generativa para la Educación en Programación: Evaluación Comparativa de ChatGPT, GPT-4 y Tutores Humanos

Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4, and Human Tutors

June 29, 2023
Autores: Tung Phung, Victor-Alexandru Pădurean, José Cambronero, Sumit Gulwani, Tobias Kohn, Rupak Majumdar, Adish Singla, Gustavo Soares
cs.AI

Resumen

La IA generativa y los modelos de lenguaje de gran escala tienen un gran potencial para mejorar la educación en computación al impulsar tecnologías educativas de próxima generación para la programación introductoria. Trabajos recientes han estudiado estos modelos en diferentes escenarios relevantes para la educación en programación; sin embargo, estos estudios están limitados por varias razones, ya que generalmente consideran modelos ya obsoletos o solo escenarios específicos. En consecuencia, existe una falta de estudios sistemáticos que evalúen modelos de última generación para un conjunto completo de escenarios de educación en programación. En nuestro trabajo, evaluamos sistemáticamente dos modelos, ChatGPT (basado en GPT-3.5) y GPT-4, y comparamos su rendimiento con el de tutores humanos en una variedad de escenarios. Evaluamos utilizando cinco problemas introductorios de programación en Python y programas con errores del mundo real de una plataforma en línea, y medimos el rendimiento mediante anotaciones basadas en expertos. Nuestros resultados muestran que GPT-4 supera drásticamente a ChatGPT (basado en GPT-3.5) y se acerca al rendimiento de los tutores humanos en varios escenarios. Estos resultados también destacan situaciones en las que GPT-4 aún tiene dificultades, proporcionando direcciones futuras emocionantes para desarrollar técnicas que mejoren el rendimiento de estos modelos.
English
Generative AI and large language models hold great promise in enhancing computing education by powering next-generation educational technologies for introductory programming. Recent works have studied these models for different scenarios relevant to programming education; however, these works are limited for several reasons, as they typically consider already outdated models or only specific scenario(s). Consequently, there is a lack of a systematic study that benchmarks state-of-the-art models for a comprehensive set of programming education scenarios. In our work, we systematically evaluate two models, ChatGPT (based on GPT-3.5) and GPT-4, and compare their performance with human tutors for a variety of scenarios. We evaluate using five introductory Python programming problems and real-world buggy programs from an online platform, and assess performance using expert-based annotations. Our results show that GPT-4 drastically outperforms ChatGPT (based on GPT-3.5) and comes close to human tutors' performance for several scenarios. These results also highlight settings where GPT-4 still struggles, providing exciting future directions on developing techniques to improve the performance of these models.
PDF212December 15, 2024