Eine explorative Fallstudie zur LLM-Unterstützung bei Refactoring und Generierung von Gameplay-Features in einem Endless Runner-Spiel

Zusammenfassung

Große Sprachmodelle (Large Language Models, LLMs) werden zunehmend zur Unterstützung der Softwareentwicklung eingesetzt, doch ihr praktischer Nutzen in angewandten Spielentwicklungsumgebungen ist noch wenig erforscht, insbesondere wenn generierter Code in ein bestehendes Spielsoftwaresystem integriert werden muss. Dieser Artikel präsentiert eine explorative empirische Fallstudie mit GPT-4o in einem benutzerdefinierten Python/Pygame-Endless-Runner. Die Studie untersucht sechs ausgewählte Entwicklungsaufgaben: drei lokalisierte Refactoring-Aufgaben und drei Aufgaben zur Generierung von Spielmechaniken. Die resultierenden Implementierungen wurden anhand von Softwaremetriken, Unit-Tests und manuellen Spielbewertungen evaluiert. In dieser Fallstudie wurden alle drei ausgewählten Refactoring-Aufgaben in funktionaler Hinsicht erfolgreich abgeschlossen, während nur eine der drei ausgewählten Aufgaben zur Generierung von Spielmechaniken zu einer korrekt integrierten Funktion führte. Die Ergebnisse deuten darauf hin, dass GPT-4o in diesem Umfeld lokalisierte Transformationen zuverlässiger bewältigte als Aufgaben, die neue Spielinteraktionen über mehrere bestehende Systeme hinweg erforderten. Aufgrund des explorativen Einzelfalldesigns sind diese Ergebnisse am besten als indikative Beobachtungen zu interpretieren, nicht als verallgemeinerbare Belege für die kategoriale Modellleistung. Insgesamt liefert der Artikel einen transparenten fallbasierten Bericht über die Möglichkeiten und Grenzen LLM-gestützten Refactorings und der Generierung von Spielmechaniken in einem bestehenden Spielsoftwaresystem.

English

Large language models (LLMs) are increasingly used to support software development, but their practical usefulness in applied game-development settings remains underexplored, especially when generated code must be integrated into an existing game software system. This paper presents an exploratory empirical case study of GPT-4o in a custom Python/Pygame endless runner. The study examines six selected development tasks: three localized refactoring tasks and three tasks involving gameplay feature generation. The resulting implementations were evaluated using software metrics, unit tests, and manual gameplay assessments. In this case study, all three selected refactoring tasks were completed successfully in functional terms, whereas only one of the three selected gameplay feature generation tasks resulted in a correctly integrated feature. The findings suggest that, in this setting, GPT-4o handled localized transformations more reliably than tasks requiring new gameplay interactions across multiple existing systems. Given the exploratory single-case design, these results are best interpreted as indicative observations rather than as generalizable evidence of category-level model performance. Overall, the paper contributes a transparent case-based account of the opportunities and limitations of LLM-assisted refactoring and gameplay feature generation in an existing game software system.