Generatieve AI voor Programmerenonderwijs: Benchmarking van ChatGPT, GPT-4 en Menselijke Tutoren
Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4, and Human Tutors
June 29, 2023
Auteurs: Tung Phung, Victor-Alexandru Pădurean, José Cambronero, Sumit Gulwani, Tobias Kohn, Rupak Majumdar, Adish Singla, Gustavo Soares
cs.AI
Samenvatting
Generatieve AI en grote taalmodellen bieden veelbelovende mogelijkheden om het computeronderwijs te verbeteren door de ontwikkeling van educatieve technologieën van de volgende generatie voor inleidende programmering. Recente studies hebben deze modellen onderzocht voor verschillende scenario's die relevant zijn voor programmeeronderwijs; deze studies zijn echter beperkt omdat ze meestal verouderde modellen of slechts specifieke scenario's beschouwen. Hierdoor ontbreekt een systematische studie die state-of-the-art modellen benchmarkt voor een uitgebreide set van programmeeronderwijsscenario's. In ons werk evalueren we systematisch twee modellen, ChatGPT (gebaseerd op GPT-3.5) en GPT-4, en vergelijken hun prestaties met die van menselijke tutoren voor een verscheidenheid aan scenario's. We evalueren aan de hand van vijf inleidende Python-programmeerproblemen en real-world buggy programma's van een online platform, en beoordelen de prestaties met behulp van expertgebaseerde annotaties. Onze resultaten laten zien dat GPT-4 aanzienlijk beter presteert dan ChatGPT (gebaseerd op GPT-3.5) en dicht in de buurt komt van de prestaties van menselijke tutoren voor verschillende scenario's. Deze resultaten benadrukken ook situaties waarin GPT-4 nog steeds moeite heeft, wat interessante toekomstige richtingen biedt voor het ontwikkelen van technieken om de prestaties van deze modellen te verbeteren.
English
Generative AI and large language models hold great promise in enhancing
computing education by powering next-generation educational technologies for
introductory programming. Recent works have studied these models for different
scenarios relevant to programming education; however, these works are limited
for several reasons, as they typically consider already outdated models or only
specific scenario(s). Consequently, there is a lack of a systematic study that
benchmarks state-of-the-art models for a comprehensive set of programming
education scenarios. In our work, we systematically evaluate two models,
ChatGPT (based on GPT-3.5) and GPT-4, and compare their performance with human
tutors for a variety of scenarios. We evaluate using five introductory Python
programming problems and real-world buggy programs from an online platform, and
assess performance using expert-based annotations. Our results show that GPT-4
drastically outperforms ChatGPT (based on GPT-3.5) and comes close to human
tutors' performance for several scenarios. These results also highlight
settings where GPT-4 still struggles, providing exciting future directions on
developing techniques to improve the performance of these models.