Inteligência Artificial Generativa para Educação em Programação: Comparando ChatGPT, GPT-4 e Tutores Humanos

Resumo

A IA generativa e os grandes modelos de linguagem têm um grande potencial para aprimorar a educação em computação, impulsionando tecnologias educacionais de próxima geração para o ensino introdutório de programação. Trabalhos recentes têm estudado esses modelos em diferentes cenários relevantes para o ensino de programação; no entanto, essas pesquisas são limitadas por vários motivos, como a consideração de modelos já desatualizados ou apenas cenários específicos. Consequentemente, há uma falta de estudos sistemáticos que avaliem modelos de última geração para um conjunto abrangente de cenários de educação em programação. Em nosso trabalho, avaliamos sistematicamente dois modelos, o ChatGPT (baseado no GPT-3.5) e o GPT-4, e comparamos seu desempenho com o de tutores humanos em uma variedade de cenários. Avaliamos utilizando cinco problemas introdutórios de programação em Python e programas com bugs reais de uma plataforma online, e medimos o desempenho por meio de anotações baseadas em especialistas. Nossos resultados mostram que o GPT-4 supera drasticamente o ChatGPT (baseado no GPT-3.5) e se aproxima do desempenho de tutores humanos em vários cenários. Esses resultados também destacam situações em que o GPT-4 ainda enfrenta dificuldades, apontando direções futuras promissoras para o desenvolvimento de técnicas que melhorem o desempenho desses modelos.

English

Generative AI and large language models hold great promise in enhancing computing education by powering next-generation educational technologies for introductory programming. Recent works have studied these models for different scenarios relevant to programming education; however, these works are limited for several reasons, as they typically consider already outdated models or only specific scenario(s). Consequently, there is a lack of a systematic study that benchmarks state-of-the-art models for a comprehensive set of programming education scenarios. In our work, we systematically evaluate two models, ChatGPT (based on GPT-3.5) and GPT-4, and compare their performance with human tutors for a variety of scenarios. We evaluate using five introductory Python programming problems and real-world buggy programs from an online platform, and assess performance using expert-based annotations. Our results show that GPT-4 drastically outperforms ChatGPT (based on GPT-3.5) and comes close to human tutors' performance for several scenarios. These results also highlight settings where GPT-4 still struggles, providing exciting future directions on developing techniques to improve the performance of these models.

Inteligência Artificial Generativa para Educação em Programação: Comparando ChatGPT, GPT-4 e Tutores Humanos

Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4, and Human Tutors

Resumo

Support