ChatPaper.aiChatPaper

ParaStudent : Génération et évaluation de code étudiant réaliste en apprenant aux LLM à rencontrer des difficultés

ParaStudent: Generating and Evaluating Realistic Student Code by Teaching LLMs to Struggle

July 16, 2025
papers.authors: Mihran Miroyan, Rose Niousha, Joseph E. Gonzalez, Gireeja Ranade, Narges Norouzi
cs.AI

papers.abstract

Les grands modèles de langage (LLMs) ont démontré de solides performances sur les tâches de programmation, mais peuvent-ils générer du code ressemblant à celui des étudiants - imparfait, itératif et stylistiquement diversifié ? Nous présentons ParaStudent, une étude systématique de la génération de code "similaire à celui des étudiants" basée sur les LLMs dans le cadre d'un cours d'introduction à la programmation. En utilisant un ensemble de données de soumissions d'étudiants horodatées sur plusieurs semestres, nous concevons des expériences à basse et haute résolution pour modéliser la progression des étudiants et évaluer les sorties de code selon des dimensions sémantiques, fonctionnelles et stylistiques. Nos résultats montrent que le fine-tuning améliore significativement l'alignement avec les trajectoires réelles des étudiants et capture plus fidèlement les modèles d'erreurs, les améliorations incrémentales et les variations stylistiques. Cette étude montre que la modélisation de code étudiant réaliste nécessite de capturer les dynamiques d'apprentissage à travers une génération contextuelle, une modélisation temporelle et une évaluation multidimensionnelle. Le code pour les expériences et l'évaluation est disponible à l'adresse https://github.com/mmiroyan/ParaStudent.
English
Large Language Models (LLMs) have shown strong performance on programming tasks, but can they generate student-like code like real students - imperfect, iterative, and stylistically diverse? We present ParaStudent, a systematic study of LLM-based "student-like" code generation in an introductory programming course setting. Using a dataset of timestamped student submissions across multiple semesters, we design low- and high-resolution experiments to model student progress and evaluate code outputs along semantic, functional, and stylistic dimensions. Our results show that fine-tuning significantly improves alignment with real student trajectories and captures error patterns, incremental improvements, and stylistic variations more faithfully. This study shows that modeling realistic student code requires capturing learning dynamics through context-aware generation, temporal modeling, and multi-dimensional evaluation. Code for experiments and evaluation is available at https://github.com/mmiroyan/ParaStudent.
PDF01July 22, 2025