ParaStudent: Generazione e Valutazione di Codice Studentesco Realistico Insegnando ai Modelli Linguistici a Lottare
ParaStudent: Generating and Evaluating Realistic Student Code by Teaching LLMs to Struggle
July 16, 2025
Autori: Mihran Miroyan, Rose Niousha, Joseph E. Gonzalez, Gireeja Ranade, Narges Norouzi
cs.AI
Abstract
I Large Language Model (LLM) hanno dimostrato prestazioni solide nei compiti di programmazione, ma possono generare codice simile a quello degli studenti, imperfetto, iterativo e stilisticamente diversificato? Presentiamo ParaStudent, uno studio sistematico sulla generazione di codice "simile a quello degli studenti" basato su LLM in un contesto di corso introduttivo di programmazione. Utilizzando un dataset di consegne temporizzate degli studenti raccolte in più semestri, progettiamo esperimenti a bassa e alta risoluzione per modellare il progresso degli studenti e valutare gli output di codice lungo dimensioni semantiche, funzionali e stilistiche. I nostri risultati mostrano che il fine-tuning migliora significativamente l'allineamento con le traiettorie reali degli studenti e cattura in modo più fedele i modelli di errore, i miglioramenti incrementali e le variazioni stilistiche. Questo studio dimostra che modellare codice studentesco realistico richiede la cattura delle dinamiche di apprendimento attraverso generazione contestuale, modellazione temporale e valutazione multidimensionale. Il codice per gli esperimenti e la valutazione è disponibile all'indirizzo https://github.com/mmiroyan/ParaStudent.
English
Large Language Models (LLMs) have shown strong performance on programming
tasks, but can they generate student-like code like real students - imperfect,
iterative, and stylistically diverse? We present ParaStudent, a systematic
study of LLM-based "student-like" code generation in an introductory
programming course setting. Using a dataset of timestamped student submissions
across multiple semesters, we design low- and high-resolution experiments to
model student progress and evaluate code outputs along semantic, functional,
and stylistic dimensions. Our results show that fine-tuning significantly
improves alignment with real student trajectories and captures error patterns,
incremental improvements, and stylistic variations more faithfully. This study
shows that modeling realistic student code requires capturing learning dynamics
through context-aware generation, temporal modeling, and multi-dimensional
evaluation. Code for experiments and evaluation is available at
https://github.com/mmiroyan/ParaStudent.