Inteligência Artificial Generativa para Educação em Programação: Comparando ChatGPT, GPT-4 e Tutores Humanos
Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4, and Human Tutors
June 29, 2023
Autores: Tung Phung, Victor-Alexandru Pădurean, José Cambronero, Sumit Gulwani, Tobias Kohn, Rupak Majumdar, Adish Singla, Gustavo Soares
cs.AI
Resumo
A IA generativa e os grandes modelos de linguagem têm um grande potencial para aprimorar a educação em computação, impulsionando tecnologias educacionais de próxima geração para o ensino introdutório de programação. Trabalhos recentes têm estudado esses modelos em diferentes cenários relevantes para o ensino de programação; no entanto, essas pesquisas são limitadas por vários motivos, como a consideração de modelos já desatualizados ou apenas cenários específicos. Consequentemente, há uma falta de estudos sistemáticos que avaliem modelos de última geração para um conjunto abrangente de cenários de educação em programação. Em nosso trabalho, avaliamos sistematicamente dois modelos, o ChatGPT (baseado no GPT-3.5) e o GPT-4, e comparamos seu desempenho com o de tutores humanos em uma variedade de cenários. Avaliamos utilizando cinco problemas introdutórios de programação em Python e programas com bugs reais de uma plataforma online, e medimos o desempenho por meio de anotações baseadas em especialistas. Nossos resultados mostram que o GPT-4 supera drasticamente o ChatGPT (baseado no GPT-3.5) e se aproxima do desempenho de tutores humanos em vários cenários. Esses resultados também destacam situações em que o GPT-4 ainda enfrenta dificuldades, apontando direções futuras promissoras para o desenvolvimento de técnicas que melhorem o desempenho desses modelos.
English
Generative AI and large language models hold great promise in enhancing
computing education by powering next-generation educational technologies for
introductory programming. Recent works have studied these models for different
scenarios relevant to programming education; however, these works are limited
for several reasons, as they typically consider already outdated models or only
specific scenario(s). Consequently, there is a lack of a systematic study that
benchmarks state-of-the-art models for a comprehensive set of programming
education scenarios. In our work, we systematically evaluate two models,
ChatGPT (based on GPT-3.5) and GPT-4, and compare their performance with human
tutors for a variety of scenarios. We evaluate using five introductory Python
programming problems and real-world buggy programs from an online platform, and
assess performance using expert-based annotations. Our results show that GPT-4
drastically outperforms ChatGPT (based on GPT-3.5) and comes close to human
tutors' performance for several scenarios. These results also highlight
settings where GPT-4 still struggles, providing exciting future directions on
developing techniques to improve the performance of these models.