ParaStudent: Gerando e Avaliando Código Estudantil Realista ao Ensinar LLMs a Dificultar
ParaStudent: Generating and Evaluating Realistic Student Code by Teaching LLMs to Struggle
July 16, 2025
Autores: Mihran Miroyan, Rose Niousha, Joseph E. Gonzalez, Gireeja Ranade, Narges Norouzi
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado um desempenho forte em tarefas de programação, mas eles podem gerar código semelhante ao de estudantes - imperfeito, iterativo e estilisticamente diverso? Apresentamos o ParaStudent, um estudo sistemático da geração de código "semelhante ao de estudantes" baseada em LLMs no contexto de um curso introdutório de programação. Utilizando um conjunto de dados de submissões de estudantes com carimbos de tempo ao longo de múltiplos semestres, projetamos experimentos de baixa e alta resolução para modelar o progresso dos estudantes e avaliar as saídas de código em dimensões semânticas, funcionais e estilísticas. Nossos resultados mostram que o ajuste fino melhora significativamente o alinhamento com as trajetórias reais dos estudantes e captura padrões de erro, melhorias incrementais e variações estilísticas de forma mais fiel. Este estudo demonstra que modelar código realista de estudantes requer capturar dinâmicas de aprendizagem por meio de geração contextualizada, modelagem temporal e avaliação multidimensional. O código para os experimentos e avaliação está disponível em https://github.com/mmiroyan/ParaStudent.
English
Large Language Models (LLMs) have shown strong performance on programming
tasks, but can they generate student-like code like real students - imperfect,
iterative, and stylistically diverse? We present ParaStudent, a systematic
study of LLM-based "student-like" code generation in an introductory
programming course setting. Using a dataset of timestamped student submissions
across multiple semesters, we design low- and high-resolution experiments to
model student progress and evaluate code outputs along semantic, functional,
and stylistic dimensions. Our results show that fine-tuning significantly
improves alignment with real student trajectories and captures error patterns,
incremental improvements, and stylistic variations more faithfully. This study
shows that modeling realistic student code requires capturing learning dynamics
through context-aware generation, temporal modeling, and multi-dimensional
evaluation. Code for experiments and evaluation is available at
https://github.com/mmiroyan/ParaStudent.