Генеративный ИИ для обучения программированию: сравнительный анализ ChatGPT, GPT-4 и человеческих преподавателей
Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4, and Human Tutors
June 29, 2023
Авторы: Tung Phung, Victor-Alexandru Pădurean, José Cambronero, Sumit Gulwani, Tobias Kohn, Rupak Majumdar, Adish Singla, Gustavo Soares
cs.AI
Аннотация
Генеративный ИИ и крупные языковые модели обладают огромным потенциалом для улучшения образования в области компьютерных наук, обеспечивая основу для технологий следующего поколения в обучении начальному программированию. Недавние исследования изучали эти модели в различных сценариях, актуальных для обучения программированию; однако эти работы ограничены по нескольким причинам, так как обычно рассматривают уже устаревшие модели или только конкретные сценарии. В результате отсутствует систематическое исследование, которое бы сравнивало современные модели для широкого набора сценариев обучения программированию. В нашей работе мы систематически оцениваем две модели — ChatGPT (на основе GPT-3.5) и GPT-4 — и сравниваем их производительность с работой человеческих преподавателей для различных сценариев. Мы проводим оценку на основе пяти задач по начальному программированию на Python и реальных программ с ошибками с онлайн-платформы, используя экспертные аннотации для анализа результатов. Наши результаты показывают, что GPT-4 значительно превосходит ChatGPT (на основе GPT-3.5) и приближается к уровню человеческих преподавателей в нескольких сценариях. Эти результаты также подчеркивают ситуации, где GPT-4 всё ещё испытывает трудности, что открывает перспективные направления для разработки методов улучшения производительности таких моделей.
English
Generative AI and large language models hold great promise in enhancing
computing education by powering next-generation educational technologies for
introductory programming. Recent works have studied these models for different
scenarios relevant to programming education; however, these works are limited
for several reasons, as they typically consider already outdated models or only
specific scenario(s). Consequently, there is a lack of a systematic study that
benchmarks state-of-the-art models for a comprehensive set of programming
education scenarios. In our work, we systematically evaluate two models,
ChatGPT (based on GPT-3.5) and GPT-4, and compare their performance with human
tutors for a variety of scenarios. We evaluate using five introductory Python
programming problems and real-world buggy programs from an online platform, and
assess performance using expert-based annotations. Our results show that GPT-4
drastically outperforms ChatGPT (based on GPT-3.5) and comes close to human
tutors' performance for several scenarios. These results also highlight
settings where GPT-4 still struggles, providing exciting future directions on
developing techniques to improve the performance of these models.