Исследовательское тематическое исследование рефакторинга и генерации игровых функций с помощью LLM в бесконечной игре-раннере

Аннотация

Большие языковые модели (LLM) все чаще применяются для поддержки разработки программного обеспечения, однако их практическая полезность в условиях прикладной разработки игр остается малоизученной, особенно когда сгенерированный код необходимо интегрировать в существующую игровую программную систему. В данной статье представлено разведочное эмпирическое тематическое исследование GPT-4o в контексте кастомного бесконечного раннера на Python/Pygame. Исследование рассматривает шесть выбранных задач разработки: три задачи локального рефакторинга и три задачи, связанные с генерацией игровых механик. Полученные реализации были оценены с помощью программных метрик, модульных тестов и ручного тестирования игрового процесса. В данном тематическом исследовании все три выбранные задачи рефакторинга были успешно выполнены с функциональной точки зрения, тогда как только одна из трех задач генерации игровых механик привела к корректно интегрированной функции. Полученные результаты позволяют предположить, что в данном контексте GPT-4o справлялась с локальными преобразованиями более надежно, чем с задачами, требующими новых игровых взаимодействий между несколькими существующими системами. Учитывая разведочный характер единичного тематического исследования, эти результаты следует интерпретировать скорее как ориентировочные наблюдения, а не как обобщаемые свидетельства производительности модели на уровне категорий. В целом, статья предлагает прозрачный отчет на основе кейса о возможностях и ограничениях LLM-ассистированного рефакторинга и генерации игровых механик в существующей игровой программной системе.

English

Large language models (LLMs) are increasingly used to support software development, but their practical usefulness in applied game-development settings remains underexplored, especially when generated code must be integrated into an existing game software system. This paper presents an exploratory empirical case study of GPT-4o in a custom Python/Pygame endless runner. The study examines six selected development tasks: three localized refactoring tasks and three tasks involving gameplay feature generation. The resulting implementations were evaluated using software metrics, unit tests, and manual gameplay assessments. In this case study, all three selected refactoring tasks were completed successfully in functional terms, whereas only one of the three selected gameplay feature generation tasks resulted in a correctly integrated feature. The findings suggest that, in this setting, GPT-4o handled localized transformations more reliably than tasks requiring new gameplay interactions across multiple existing systems. Given the exploratory single-case design, these results are best interpreted as indicative observations rather than as generalizable evidence of category-level model performance. Overall, the paper contributes a transparent case-based account of the opportunities and limitations of LLM-assisted refactoring and gameplay feature generation in an existing game software system.