V-GameGym: Visuele Spelgeneratie voor Code-Grote Taalmodellen
V-GameGym: Visual Game Generation for Code Large Language Models
September 24, 2025
Auteurs: Wei Zhang, Jack Yang, Renshuai Tao, Lingzheng Chai, Shawn Guo, Jiajun Wu, Xiaoming Chen, Ganqu Cui, Ning Ding, Xander Xu, Hu Wei, Bowen Zhou
cs.AI
Samenvatting
Code grote taalmodellen hebben opmerkelijke capaciteiten getoond bij
programmeertaken, maar huidige benchmarks richten zich voornamelijk op
enkele modaliteit in plaats van visuele spelontwikkeling. De meeste
bestaande codegerelateerde benchmarks evalueren syntaxisnauwkeurigheid en
uitvoeringscorrectheid, waarbij cruciale spel-specifieke metrieken zoals
speelbaarheid, visuele esthetiek en gebruikersbetrokkenheid over het hoofd
worden gezien, die essentieel zijn voor implementatie in de praktijk. Om de
kloof te overbruggen tussen de huidige LLM-capaciteiten in algoritmisch
probleemoplossen en competitief programmeren versus de uitgebreide
vereisten van praktische spelontwikkeling, presenteren we V-GameGym, een
uitgebreide benchmark bestaande uit 2.219 hoogwaardige samples verdeeld
over 100 thematische clusters afkomstig uit real-world repositories, waarbij
een nieuwe clustering-gebaseerde curatiemethodologie wordt gebruikt om
zowel diversiteit als structurele volledigheid te waarborgen. Verder
introduceren we een multimodaal evaluatieraamwerk met een geautomatiseerde
LLM-gedreven pipeline voor visuele codesynthese met behulp van complete
UI-sandboxomgevingen. Onze uitgebreide analyse toont aan dat V-GameGym
effectief de kloof overbrugt tussen codegeneratienauwkeurigheid en
praktische spelontwikkelingsworkflows, waarbij kwantificeerbare
kwaliteitsmetrieken worden geboden voor visueel programmeren en het
genereren van interactieve elementen.
English
Code large language models have demonstrated remarkable capabilities in
programming tasks, yet current benchmarks primarily focus on single modality
rather than visual game development. Most existing code-related benchmarks
evaluate syntax correctness and execution accuracy, overlooking critical
game-specific metrics such as playability, visual aesthetics, and user
engagement that are essential for real-world deployment. To address the gap
between current LLM capabilities in algorithmic problem-solving and competitive
programming versus the comprehensive requirements of practical game
development, we present V-GameGym, a comprehensive benchmark comprising 2,219
high-quality samples across 100 thematic clusters derived from real-world
repositories, adopting a novel clustering-based curation methodology to ensure
both diversity and structural completeness. Further, we introduce a multimodal
evaluation framework with an automated LLM-driven pipeline for visual code
synthesis using complete UI sandbox environments. Our extensive analysis
reveals that V-GameGym effectively bridges the gap between code generation
accuracy and practical game development workflows, providing quantifiable
quality metrics for visual programming and interactive element generation.