ChatPaper.aiChatPaper

エンドレスランナーゲームにおけるLLM支援によるリファクタリングとゲームプレイ機能生成の探索的ケーススタディ

An Exploratory Case Study of LLM-Assisted Refactoring and Gameplay Feature Generation in an Endless Runner Game

June 19, 2026
著者: Jan Wunderlich, Markus Kleffmann, Sebastian Lempert
cs.AI

要旨

大規模言語モデル(LLM)はソフトウェア開発を支援するためにますます利用されているが、特に生成されたコードを既存のゲームソフトウェアシステムに統合しなければならないという、応用ゲーム開発の現場における実用的有用性については、まだ十分に探求されていない。本稿では、カスタムのPython/Pygameによるエンドレスランナーを題材に、GPT-4oを用いた探索的な実証ケーススタディを報告する。本研究では、選択した6つの開発タスク(局所的なリファクタリングタスク3件と、ゲームプレイ機能生成を伴うタスク3件)を検証した。得られた実装は、ソフトウェアメトリクス、単体テスト、手動によるゲームプレイ評価を用いて評価された。本ケーススタディでは、選択した3件のリファクタリングタスクはすべて機能的に完了したのに対し、ゲームプレイ機能生成タスク3件のうち、正しく統合された機能が得られたのは1件のみであった。この結果は、本設定においては、GPT-4oが複数の既存システムにまたがる新たなゲームプレイ相互作用を必要とするタスクよりも、局所的な変換をより確実に処理できることを示唆している。探索的な単一ケースの設計であることから、これらの結果は、カテゴリーレベルのモデル性能に関する一般化可能な証拠ではなく、示唆的な観察として解釈するのが適切である。全体として、本稿は、既存のゲームソフトウェアシステムにおけるLLM支援リファクタリングおよびゲームプレイ機能生成の機会と限界について、透明性の高いケースベースの記述を提供するものである。
English
Large language models (LLMs) are increasingly used to support software development, but their practical usefulness in applied game-development settings remains underexplored, especially when generated code must be integrated into an existing game software system. This paper presents an exploratory empirical case study of GPT-4o in a custom Python/Pygame endless runner. The study examines six selected development tasks: three localized refactoring tasks and three tasks involving gameplay feature generation. The resulting implementations were evaluated using software metrics, unit tests, and manual gameplay assessments. In this case study, all three selected refactoring tasks were completed successfully in functional terms, whereas only one of the three selected gameplay feature generation tasks resulted in a correctly integrated feature. The findings suggest that, in this setting, GPT-4o handled localized transformations more reliably than tasks requiring new gameplay interactions across multiple existing systems. Given the exploratory single-case design, these results are best interpreted as indicative observations rather than as generalizable evidence of category-level model performance. Overall, the paper contributes a transparent case-based account of the opportunities and limitations of LLM-assisted refactoring and gameplay feature generation in an existing game software system.