V-GameGym: 코드 대형 언어 모델을 위한 시각적 게임 생성
V-GameGym: Visual Game Generation for Code Large Language Models
September 24, 2025
저자: Wei Zhang, Jack Yang, Renshuai Tao, Lingzheng Chai, Shawn Guo, Jiajun Wu, Xiaoming Chen, Ganqu Cui, Ning Ding, Xander Xu, Hu Wei, Bowen Zhou
cs.AI
초록
대규모 언어 모델(LLM)은 프로그래밍 작업에서 놀라운 능력을 보여주고 있지만, 현재 벤치마크는 주로 단일 모달리티에 초점을 맞추고 있어 시각적 게임 개발을 다루지 못하고 있습니다. 대부분의 기존 코드 관련 벤치마크는 구문 정확성과 실행 정확성을 평가하는 데 그치며, 실제 배포에 필수적인 플레이 가능성, 시각적 미학, 사용자 참여와 같은 게임 특화 지표를 간과하고 있습니다. 알고리즘 문제 해결 및 경쟁 프로그래밍에서의 현재 LLM 능력과 실질적인 게임 개발의 포괄적 요구 사항 간의 격차를 해소하기 위해, 우리는 V-GameGym을 제안합니다. 이는 실제 저장소에서 도출된 100개의 주제별 클러스터에 걸친 2,219개의 고품질 샘플로 구성된 종합 벤치마크로, 다양성과 구조적 완전성을 보장하기 위한 새로운 클러스터링 기반 큐레이션 방법론을 채택했습니다. 더 나아가, 완전한 UI 샌드박스 환경을 활용한 시각적 코드 합성을 위한 자동화된 LLM 기반 파이프라인을 포함한 다중 모달 평가 프레임워크를 도입했습니다. 우리의 광범위한 분석을 통해 V-GameGym이 코드 생성 정확성과 실질적인 게임 개발 워크플로우 간의 격차를 효과적으로 메우며, 시각적 프로그래밍 및 상호작용 요소 생성에 대한 정량적 품질 지표를 제공함을 확인했습니다.
English
Code large language models have demonstrated remarkable capabilities in
programming tasks, yet current benchmarks primarily focus on single modality
rather than visual game development. Most existing code-related benchmarks
evaluate syntax correctness and execution accuracy, overlooking critical
game-specific metrics such as playability, visual aesthetics, and user
engagement that are essential for real-world deployment. To address the gap
between current LLM capabilities in algorithmic problem-solving and competitive
programming versus the comprehensive requirements of practical game
development, we present V-GameGym, a comprehensive benchmark comprising 2,219
high-quality samples across 100 thematic clusters derived from real-world
repositories, adopting a novel clustering-based curation methodology to ensure
both diversity and structural completeness. Further, we introduce a multimodal
evaluation framework with an automated LLM-driven pipeline for visual code
synthesis using complete UI sandbox environments. Our extensive analysis
reveals that V-GameGym effectively bridges the gap between code generation
accuracy and practical game development workflows, providing quantifiable
quality metrics for visual programming and interactive element generation.