ChatPaper.aiChatPaper

ParaStudent: Generación y Evaluación de Código Estudiantil Realista Enseñando a los LLM a Luchar

ParaStudent: Generating and Evaluating Realistic Student Code by Teaching LLMs to Struggle

July 16, 2025
Autores: Mihran Miroyan, Rose Niousha, Joseph E. Gonzalez, Gireeja Ranade, Narges Norouzi
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento sólido en tareas de programación, pero ¿pueden generar código similar al de estudiantes reales, es decir, imperfecto, iterativo y estilísticamente diverso? Presentamos ParaStudent, un estudio sistemático de la generación de código "similar al de estudiantes" basado en LLMs en el contexto de un curso introductorio de programación. Utilizando un conjunto de datos de entregas de estudiantes con marcas de tiempo a lo largo de varios semestres, diseñamos experimentos de baja y alta resolución para modelar el progreso de los estudiantes y evaluar los resultados del código en dimensiones semánticas, funcionales y estilísticas. Nuestros resultados muestran que el ajuste fino mejora significativamente la alineación con las trayectorias reales de los estudiantes y captura de manera más fiel los patrones de errores, las mejoras incrementales y las variaciones estilísticas. Este estudio demuestra que modelar código estudiantil realista requiere capturar dinámicas de aprendizaje mediante generación consciente del contexto, modelado temporal y evaluación multidimensional. El código para los experimentos y la evaluación está disponible en https://github.com/mmiroyan/ParaStudent.
English
Large Language Models (LLMs) have shown strong performance on programming tasks, but can they generate student-like code like real students - imperfect, iterative, and stylistically diverse? We present ParaStudent, a systematic study of LLM-based "student-like" code generation in an introductory programming course setting. Using a dataset of timestamped student submissions across multiple semesters, we design low- and high-resolution experiments to model student progress and evaluate code outputs along semantic, functional, and stylistic dimensions. Our results show that fine-tuning significantly improves alignment with real student trajectories and captures error patterns, incremental improvements, and stylistic variations more faithfully. This study shows that modeling realistic student code requires capturing learning dynamics through context-aware generation, temporal modeling, and multi-dimensional evaluation. Code for experiments and evaluation is available at https://github.com/mmiroyan/ParaStudent.
PDF01July 22, 2025