Un estudio de caso exploratorio sobre la refactorización asistida por LLM y la generación de características de juego en un juego de corredor infinito

Resumen

Los grandes modelos de lenguaje (LLMs) se utilizan cada vez más para apoyar el desarrollo de software, pero su utilidad práctica en entornos aplicados de desarrollo de videojuegos sigue siendo poco explorada, especialmente cuando el código generado debe integrarse en un sistema de software de juego existente. Este artículo presenta un estudio de caso empírico exploratorio de GPT-4o en un corredor infinito personalizado en Python/Pygame. El estudio examina seis tareas de desarrollo seleccionadas: tres tareas de refactorización localizada y tres tareas que implican la generación de funcionalidades de juego. Las implementaciones resultantes se evaluaron mediante métricas de software, pruebas unitarias y evaluaciones manuales de jugabilidad. En este estudio de caso, las tres tareas de refactorización seleccionadas se completaron con éxito en términos funcionales, mientras que solo una de las tres tareas de generación de funcionalidades de juego dio lugar a una funcionalidad correctamente integrada. Los hallazgos sugieren que, en este contexto, GPT-4o manejó las transformaciones localizadas de manera más fiable que las tareas que requieren nuevas interacciones de juego a través de múltiples sistemas existentes. Dado el diseño exploratorio de caso único, estos resultados se interpretan mejor como observaciones indicativas que como evidencia generalizable del rendimiento del modelo a nivel de categoría. En conjunto, el artículo contribuye con un relato transparente basado en casos sobre las oportunidades y limitaciones de la refactorización asistida por LLM y la generación de funcionalidades de juego en un sistema de software de juego existente.

English

Large language models (LLMs) are increasingly used to support software development, but their practical usefulness in applied game-development settings remains underexplored, especially when generated code must be integrated into an existing game software system. This paper presents an exploratory empirical case study of GPT-4o in a custom Python/Pygame endless runner. The study examines six selected development tasks: three localized refactoring tasks and three tasks involving gameplay feature generation. The resulting implementations were evaluated using software metrics, unit tests, and manual gameplay assessments. In this case study, all three selected refactoring tasks were completed successfully in functional terms, whereas only one of the three selected gameplay feature generation tasks resulted in a correctly integrated feature. The findings suggest that, in this setting, GPT-4o handled localized transformations more reliably than tasks requiring new gameplay interactions across multiple existing systems. Given the exploratory single-case design, these results are best interpreted as indicative observations rather than as generalizable evidence of category-level model performance. Overall, the paper contributes a transparent case-based account of the opportunities and limitations of LLM-assisted refactoring and gameplay feature generation in an existing game software system.