ChatPaper.aiChatPaper

Generative KI für die Programmierausbildung: Benchmarking von ChatGPT, GPT-4 und menschlichen Tutoren

Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4, and Human Tutors

June 29, 2023
Autoren: Tung Phung, Victor-Alexandru Pădurean, José Cambronero, Sumit Gulwani, Tobias Kohn, Rupak Majumdar, Adish Singla, Gustavo Soares
cs.AI

Zusammenfassung

Generative KI und große Sprachmodelle bergen großes Potenzial, die Informatikausbildung zu verbessern, indem sie die Grundlage für die nächste Generation von Bildungstechnologien im Bereich der Einführung in die Programmierung bilden. Aktuelle Arbeiten haben diese Modelle für verschiedene Szenarien untersucht, die für die Programmierausbildung relevant sind; diese Studien sind jedoch aus mehreren Gründen begrenzt, da sie typischerweise bereits veraltete Modelle oder nur spezifische Szenarien betrachten. Folglich fehlt es an einer systematischen Studie, die state-of-the-art Modelle für eine umfassende Reihe von Programmierausbildungsszenarien vergleicht. In unserer Arbeit evaluieren wir systematisch zwei Modelle, ChatGPT (basierend auf GPT-3.5) und GPT-4, und vergleichen ihre Leistung mit der menschlicher Tutoren für verschiedene Szenarien. Wir bewerten die Modelle anhand von fünf einführenden Python-Programmieraufgaben und realen fehlerhaften Programmen von einer Online-Plattform und beurteilen die Leistung mithilfe von Expertenannotationen. Unsere Ergebnisse zeigen, dass GPT-4 ChatGPT (basierend auf GPT-3.5) deutlich übertrifft und in mehreren Szenarien nahe an die Leistung menschlicher Tutoren heranreicht. Diese Ergebnisse verdeutlichen auch Bereiche, in denen GPT-4 noch Schwierigkeiten hat, und bieten spannende zukünftige Forschungsrichtungen, um Techniken zur Verbesserung der Leistung dieser Modelle zu entwickeln.
English
Generative AI and large language models hold great promise in enhancing computing education by powering next-generation educational technologies for introductory programming. Recent works have studied these models for different scenarios relevant to programming education; however, these works are limited for several reasons, as they typically consider already outdated models or only specific scenario(s). Consequently, there is a lack of a systematic study that benchmarks state-of-the-art models for a comprehensive set of programming education scenarios. In our work, we systematically evaluate two models, ChatGPT (based on GPT-3.5) and GPT-4, and compare their performance with human tutors for a variety of scenarios. We evaluate using five introductory Python programming problems and real-world buggy programs from an online platform, and assess performance using expert-based annotations. Our results show that GPT-4 drastically outperforms ChatGPT (based on GPT-3.5) and comes close to human tutors' performance for several scenarios. These results also highlight settings where GPT-4 still struggles, providing exciting future directions on developing techniques to improve the performance of these models.
PDF212December 15, 2024