Intelligenza Artificiale Generativa per l'Educazione alla Programmazione: Benchmarking di ChatGPT, GPT-4 e Tutor Umani
Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4, and Human Tutors
June 29, 2023
Autori: Tung Phung, Victor-Alexandru Pădurean, José Cambronero, Sumit Gulwani, Tobias Kohn, Rupak Majumdar, Adish Singla, Gustavo Soares
cs.AI
Abstract
L'intelligenza artificiale generativa e i modelli linguistici di grandi dimensioni offrono un grande potenziale nel migliorare l'educazione informatica, alimentando le tecnologie educative di prossima generazione per la programmazione introduttiva. Recenti studi hanno analizzato questi modelli in diversi scenari rilevanti per l'insegnamento della programmazione; tuttavia, questi lavori presentano diverse limitazioni, poiché spesso considerano modelli già obsoleti o si concentrano solo su scenari specifici. Di conseguenza, manca uno studio sistematico che confronti i modelli più avanzati per un insieme completo di scenari nell'educazione alla programmazione. Nel nostro lavoro, valutiamo sistematicamente due modelli, ChatGPT (basato su GPT-3.5) e GPT-4, e confrontiamo le loro prestazioni con quelle di tutor umani in una varietà di scenari. La valutazione viene effettuata utilizzando cinque problemi introduttivi di programmazione in Python e programmi con bug reali provenienti da una piattaforma online, e le prestazioni vengono valutate tramite annotazioni basate su esperti. I nostri risultati dimostrano che GPT-4 supera nettamente ChatGPT (basato su GPT-3.5) e si avvicina alle prestazioni dei tutor umani in diversi scenari. Questi risultati evidenziano anche contesti in cui GPT-4 incontra ancora difficoltà, offrendo interessanti direzioni future per lo sviluppo di tecniche volte a migliorare le prestazioni di questi modelli.
English
Generative AI and large language models hold great promise in enhancing
computing education by powering next-generation educational technologies for
introductory programming. Recent works have studied these models for different
scenarios relevant to programming education; however, these works are limited
for several reasons, as they typically consider already outdated models or only
specific scenario(s). Consequently, there is a lack of a systematic study that
benchmarks state-of-the-art models for a comprehensive set of programming
education scenarios. In our work, we systematically evaluate two models,
ChatGPT (based on GPT-3.5) and GPT-4, and compare their performance with human
tutors for a variety of scenarios. We evaluate using five introductory Python
programming problems and real-world buggy programs from an online platform, and
assess performance using expert-based annotations. Our results show that GPT-4
drastically outperforms ChatGPT (based on GPT-3.5) and comes close to human
tutors' performance for several scenarios. These results also highlight
settings where GPT-4 still struggles, providing exciting future directions on
developing techniques to improve the performance of these models.