V-GameGym: Visuelle Spielgenerierung für Code-Großsprachmodelle
V-GameGym: Visual Game Generation for Code Large Language Models
September 24, 2025
papers.authors: Wei Zhang, Jack Yang, Renshuai Tao, Lingzheng Chai, Shawn Guo, Jiajun Wu, Xiaoming Chen, Ganqu Cui, Ning Ding, Xander Xu, Hu Wei, Bowen Zhou
cs.AI
papers.abstract
Code-Large-Language-Models haben bemerkenswerte Fähigkeiten bei Programmieraufgaben gezeigt, doch konzentrieren sich aktuelle Benchmarks hauptsächlich auf Einzelmodalitäten anstatt auf visuelle Spieleentwicklung. Die meisten bestehenden Code-bezogenen Benchmarks bewerten die Syntaxkorrektheit und Ausführungsgenauigkeit, übersehen jedoch kritische spielspezifische Metriken wie Spielbarkeit, visuelle Ästhetik und Benutzerengagement, die für den praktischen Einsatz entscheidend sind. Um die Lücke zwischen den aktuellen Fähigkeiten von LLMs im algorithmischen Problemlösen und kompetitiven Programmieren und den umfassenden Anforderungen der praktischen Spieleentwicklung zu schließen, präsentieren wir V-GameGym, einen umfassenden Benchmark, der 2.219 hochwertige Proben aus 100 thematischen Clustern umfasst, die aus realen Repositories abgeleitet wurden. Dabei verwenden wir eine neuartige, clusterbasierte Kuratierungsmethode, um sowohl Vielfalt als auch strukturelle Vollständigkeit sicherzustellen. Darüber hinaus führen wir ein multimodales Bewertungsframework mit einer automatisierten, LLM-gesteuerten Pipeline zur visuellen Codesynthese in vollständigen UI-Sandbox-Umgebungen ein. Unsere umfangreiche Analyse zeigt, dass V-GameGym effektiv die Lücke zwischen der Genauigkeit der Codegenerierung und den praktischen Workflows der Spieleentwicklung schließt und quantifizierbare Qualitätsmetriken für visuelle Programmierung und die Erzeugung interaktiver Elemente liefert.
English
Code large language models have demonstrated remarkable capabilities in
programming tasks, yet current benchmarks primarily focus on single modality
rather than visual game development. Most existing code-related benchmarks
evaluate syntax correctness and execution accuracy, overlooking critical
game-specific metrics such as playability, visual aesthetics, and user
engagement that are essential for real-world deployment. To address the gap
between current LLM capabilities in algorithmic problem-solving and competitive
programming versus the comprehensive requirements of practical game
development, we present V-GameGym, a comprehensive benchmark comprising 2,219
high-quality samples across 100 thematic clusters derived from real-world
repositories, adopting a novel clustering-based curation methodology to ensure
both diversity and structural completeness. Further, we introduce a multimodal
evaluation framework with an automated LLM-driven pipeline for visual code
synthesis using complete UI sandbox environments. Our extensive analysis
reveals that V-GameGym effectively bridges the gap between code generation
accuracy and practical game development workflows, providing quantifiable
quality metrics for visual programming and interactive element generation.