ParaStudent: Генерация и оценка реалистичного студенческого кода через обучение языковых моделей испытывать трудности
ParaStudent: Generating and Evaluating Realistic Student Code by Teaching LLMs to Struggle
July 16, 2025
Авторы: Mihran Miroyan, Rose Niousha, Joseph E. Gonzalez, Gireeja Ranade, Narges Norouzi
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют высокую производительность в решении задач программирования, но могут ли они генерировать код, похожий на студенческий — несовершенный, итеративный и стилистически разнообразный? Мы представляем ParaStudent — систематическое исследование генерации "студенческого" кода на основе LLM в контексте вводного курса программирования. Используя набор данных с временными метками студенческих решений за несколько семестров, мы разрабатываем эксперименты низкого и высокого разрешения для моделирования прогресса студентов и оценки выходного кода по семантическим, функциональным и стилистическим параметрам. Наши результаты показывают, что тонкая настройка значительно улучшает соответствие реальным траекториям студентов и более точно отражает паттерны ошибок, постепенные улучшения и стилистические вариации. Это исследование демонстрирует, что моделирование реалистичного студенческого кода требует учета динамики обучения через контекстно-зависимую генерацию, временное моделирование и многомерную оценку. Код для экспериментов и оценки доступен по адресу https://github.com/mmiroyan/ParaStudent.
English
Large Language Models (LLMs) have shown strong performance on programming
tasks, but can they generate student-like code like real students - imperfect,
iterative, and stylistically diverse? We present ParaStudent, a systematic
study of LLM-based "student-like" code generation in an introductory
programming course setting. Using a dataset of timestamped student submissions
across multiple semesters, we design low- and high-resolution experiments to
model student progress and evaluate code outputs along semantic, functional,
and stylistic dimensions. Our results show that fine-tuning significantly
improves alignment with real student trajectories and captures error patterns,
incremental improvements, and stylistic variations more faithfully. This study
shows that modeling realistic student code requires capturing learning dynamics
through context-aware generation, temporal modeling, and multi-dimensional
evaluation. Code for experiments and evaluation is available at
https://github.com/mmiroyan/ParaStudent.