끝없는 러너 게임에서의 LLM 지원 리팩토링 및 게임플레이 기능 생성에 관한 탐색적 사례 연구
An Exploratory Case Study of LLM-Assisted Refactoring and Gameplay Feature Generation in an Endless Runner Game
June 19, 2026
저자: Jan Wunderlich, Markus Kleffmann, Sebastian Lempert
cs.AI
초록
대규모 언어 모델(LLM)은 소프트웨어 개발을 지원하기 위해 점점 더 많이 사용되고 있지만, 실제 게임 개발 환경에서의 실용적 유용성은 아직 충분히 탐구되지 않았다. 특히 생성된 코드를 기존 게임 소프트웨어 시스템에 통합해야 하는 경우가 그러하다. 본 논문은 맞춤형 Python/Pygame 무한 러너(endless runner) 게임에서 GPT-4o에 대한 탐색적 실증 사례 연구를 제시한다. 이 연구는 6개의 선별된 개발 작업을 검토한다: 3개의 국소적 리팩토링 작업과 3개의 게임플레이 기능 생성 작업이다. 결과 구현물은 소프트웨어 메트릭, 단위 테스트, 그리고 수동 게임플레이 평가를 통해 평가되었다. 이 사례 연구에서, 선별된 세 가지 리팩토링 작업은 모두 기능적으로 성공적으로 완료된 반면, 선별된 세 가지 게임플레이 기능 생성 작업 중 하나만이 올바르게 통합된 기능으로 이어졌다. 연구 결과는 이 환경에서 GPT-4o가 여러 기존 시스템에 걸친 새로운 게임플레이 상호작용을 요구하는 작업보다 국소적 변환을 더 안정적으로 처리했음을 시사한다. 탐색적 단일 사례 설계를 고려할 때, 이러한 결과는 범주 수준의 모델 성능에 대한 일반화 가능한 증거라기보다는 지표적 관찰로 해석하는 것이 가장 적절하다. 전반적으로, 이 논문은 기존 게임 소프트웨어 시스템에서 LLM 지원 리팩토링 및 게임플레이 기능 생성의 기회와 한계에 대한 투명한 사례 기반 설명을 제공한다.
English
Large language models (LLMs) are increasingly used to support software development, but their practical usefulness in applied game-development settings remains underexplored, especially when generated code must be integrated into an existing game software system. This paper presents an exploratory empirical case study of GPT-4o in a custom Python/Pygame endless runner. The study examines six selected development tasks: three localized refactoring tasks and three tasks involving gameplay feature generation. The resulting implementations were evaluated using software metrics, unit tests, and manual gameplay assessments. In this case study, all three selected refactoring tasks were completed successfully in functional terms, whereas only one of the three selected gameplay feature generation tasks resulted in a correctly integrated feature. The findings suggest that, in this setting, GPT-4o handled localized transformations more reliably than tasks requiring new gameplay interactions across multiple existing systems. Given the exploratory single-case design, these results are best interpreted as indicative observations rather than as generalizable evidence of category-level model performance. Overall, the paper contributes a transparent case-based account of the opportunities and limitations of LLM-assisted refactoring and gameplay feature generation in an existing game software system.