ChatPaper.aiChatPaper

IA générative pour l'éducation en programmation : Évaluation comparative de ChatGPT, GPT-4 et des tuteurs humains

Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4, and Human Tutors

June 29, 2023
Auteurs: Tung Phung, Victor-Alexandru Pădurean, José Cambronero, Sumit Gulwani, Tobias Kohn, Rupak Majumdar, Adish Singla, Gustavo Soares
cs.AI

Résumé

L'intelligence artificielle générative et les grands modèles de langage offrent un potentiel considérable pour améliorer l'enseignement de l'informatique en alimentant les technologies éducatives de nouvelle génération pour la programmation introductive. Des travaux récents ont étudié ces modèles dans différents scénarios pertinents pour l'enseignement de la programmation ; cependant, ces études sont limitées pour plusieurs raisons, car elles considèrent généralement des modèles déjà obsolètes ou se concentrent uniquement sur des scénarios spécifiques. Par conséquent, il manque une étude systématique qui évalue les modèles de pointe pour un ensemble complet de scénarios d'enseignement de la programmation. Dans notre travail, nous évaluons systématiquement deux modèles, ChatGPT (basé sur GPT-3.5) et GPT-4, et comparons leurs performances à celles de tuteurs humains pour une variété de scénarios. Nous évaluons ces modèles à l'aide de cinq problèmes de programmation Python introductifs et de programmes bogués issus d'une plateforme en ligne, et nous mesurons les performances à l'aide d'annotations expertes. Nos résultats montrent que GPT-4 surpasse largement ChatGPT (basé sur GPT-3.5) et se rapproche des performances des tuteurs humains pour plusieurs scénarios. Ces résultats mettent également en lumière les situations où GPT-4 rencontre encore des difficultés, ouvrant des perspectives passionnantes pour le développement de techniques visant à améliorer les performances de ces modèles.
English
Generative AI and large language models hold great promise in enhancing computing education by powering next-generation educational technologies for introductory programming. Recent works have studied these models for different scenarios relevant to programming education; however, these works are limited for several reasons, as they typically consider already outdated models or only specific scenario(s). Consequently, there is a lack of a systematic study that benchmarks state-of-the-art models for a comprehensive set of programming education scenarios. In our work, we systematically evaluate two models, ChatGPT (based on GPT-3.5) and GPT-4, and compare their performance with human tutors for a variety of scenarios. We evaluate using five introductory Python programming problems and real-world buggy programs from an online platform, and assess performance using expert-based annotations. Our results show that GPT-4 drastically outperforms ChatGPT (based on GPT-3.5) and comes close to human tutors' performance for several scenarios. These results also highlight settings where GPT-4 still struggles, providing exciting future directions on developing techniques to improve the performance of these models.
PDF212December 15, 2024