ChatPaper.aiChatPaper

프로그래밍 교육을 위한 생성형 AI: ChatGPT, GPT-4, 그리고 인간 튜터의 벤치마킹

Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4, and Human Tutors

June 29, 2023
저자: Tung Phung, Victor-Alexandru Pădurean, José Cambronero, Sumit Gulwani, Tobias Kohn, Rupak Majumdar, Adish Singla, Gustavo Soares
cs.AI

초록

생성형 AI와 대형 언어 모델은 초급 프로그래밍 교육을 위한 차세대 교육 기술을 강화함으로써 컴퓨팅 교육을 개선할 큰 잠재력을 가지고 있습니다. 최근 연구들은 프로그래밍 교육과 관련된 다양한 시나리오에서 이러한 모델들을 연구해 왔지만, 이러한 연구들은 일반적으로 이미 구식이 된 모델을 고려하거나 특정 시나리오만을 다루는 등 여러 가지 이유로 제한적입니다. 결과적으로, 포괄적인 프로그래밍 교육 시나리오에 대해 최신 모델들을 벤치마킹하는 체계적인 연구가 부족한 상황입니다. 본 연구에서는 ChatGPT(GPT-3.5 기반)와 GPT-4 두 모델을 체계적으로 평가하고, 다양한 시나리오에서 인간 튜터와의 성능을 비교합니다. 우리는 초급 Python 프로그래밍 문제 5개와 온라인 플랫폼의 실제 버그가 있는 프로그램을 사용하여 평가를 진행하며, 전문가 기반 주석을 통해 성능을 평가합니다. 연구 결과, GPT-4는 ChatGPT(GPT-3.5 기반)를 크게 능가하며 여러 시나리오에서 인간 튜터의 성능에 근접하는 것으로 나타났습니다. 또한 이러한 결과는 GPT-4가 여전히 어려움을 겪는 설정을 강조하며, 이러한 모델의 성능을 개선하기 위한 기술 개발에 대한 흥미로운 미래 방향을 제시합니다.
English
Generative AI and large language models hold great promise in enhancing computing education by powering next-generation educational technologies for introductory programming. Recent works have studied these models for different scenarios relevant to programming education; however, these works are limited for several reasons, as they typically consider already outdated models or only specific scenario(s). Consequently, there is a lack of a systematic study that benchmarks state-of-the-art models for a comprehensive set of programming education scenarios. In our work, we systematically evaluate two models, ChatGPT (based on GPT-3.5) and GPT-4, and compare their performance with human tutors for a variety of scenarios. We evaluate using five introductory Python programming problems and real-world buggy programs from an online platform, and assess performance using expert-based annotations. Our results show that GPT-4 drastically outperforms ChatGPT (based on GPT-3.5) and comes close to human tutors' performance for several scenarios. These results also highlight settings where GPT-4 still struggles, providing exciting future directions on developing techniques to improve the performance of these models.
PDF212December 15, 2024