ChatPaper.aiChatPaper

ParaStudent: Erzeugung und Bewertung realistischer Studentencodes durch das Lehren von LLMs, Schwierigkeiten zu haben

ParaStudent: Generating and Evaluating Realistic Student Code by Teaching LLMs to Struggle

July 16, 2025
papers.authors: Mihran Miroyan, Rose Niousha, Joseph E. Gonzalez, Gireeja Ranade, Narges Norouzi
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) haben bei Programmieraufgaben starke Leistungen gezeigt, aber können sie Code wie echte Studierende erzeugen – unvollkommen, iterativ und stilistisch vielfältig? Wir präsentieren ParaStudent, eine systematische Studie zur LLM-basierten „studentenähnlichen“ Code-Generierung in einem Einführungskurs für Programmierung. Unter Verwendung eines Datensatzes von zeitgestempelten Studierendenabgaben über mehrere Semester entwerfen wir Experimente mit niedriger und hoher Auflösung, um den Fortschritt der Studierenden zu modellieren und die Code-Ergebnisse entlang semantischer, funktionaler und stilistischer Dimensionen zu bewerten. Unsere Ergebnisse zeigen, dass Feinabstimmung die Übereinstimmung mit realen Lernverläufen der Studierenden signifikant verbessert und Fehlermuster, inkrementelle Verbesserungen sowie stilistische Variationen treffender erfasst. Diese Studie zeigt, dass die Modellierung realistischen Studentencodes das Erfassen von Lernprozessen durch kontextbewusste Generierung, zeitliche Modellierung und mehrdimensionale Bewertung erfordert. Der Code für Experimente und Auswertungen ist verfügbar unter https://github.com/mmiroyan/ParaStudent.
English
Large Language Models (LLMs) have shown strong performance on programming tasks, but can they generate student-like code like real students - imperfect, iterative, and stylistically diverse? We present ParaStudent, a systematic study of LLM-based "student-like" code generation in an introductory programming course setting. Using a dataset of timestamped student submissions across multiple semesters, we design low- and high-resolution experiments to model student progress and evaluate code outputs along semantic, functional, and stylistic dimensions. Our results show that fine-tuning significantly improves alignment with real student trajectories and captures error patterns, incremental improvements, and stylistic variations more faithfully. This study shows that modeling realistic student code requires capturing learning dynamics through context-aware generation, temporal modeling, and multi-dimensional evaluation. Code for experiments and evaluation is available at https://github.com/mmiroyan/ParaStudent.
PDF01July 22, 2025