V-GameGym: Visuele Spelgeneratie voor Code-Grote Taalmodellen

Samenvatting

Code grote taalmodellen hebben opmerkelijke capaciteiten getoond bij programmeertaken, maar huidige benchmarks richten zich voornamelijk op enkele modaliteit in plaats van visuele spelontwikkeling. De meeste bestaande codegerelateerde benchmarks evalueren syntaxisnauwkeurigheid en uitvoeringscorrectheid, waarbij cruciale spel-specifieke metrieken zoals speelbaarheid, visuele esthetiek en gebruikersbetrokkenheid over het hoofd worden gezien, die essentieel zijn voor implementatie in de praktijk. Om de kloof te overbruggen tussen de huidige LLM-capaciteiten in algoritmisch probleemoplossen en competitief programmeren versus de uitgebreide vereisten van praktische spelontwikkeling, presenteren we V-GameGym, een uitgebreide benchmark bestaande uit 2.219 hoogwaardige samples verdeeld over 100 thematische clusters afkomstig uit real-world repositories, waarbij een nieuwe clustering-gebaseerde curatiemethodologie wordt gebruikt om zowel diversiteit als structurele volledigheid te waarborgen. Verder introduceren we een multimodaal evaluatieraamwerk met een geautomatiseerde LLM-gedreven pipeline voor visuele codesynthese met behulp van complete UI-sandboxomgevingen. Onze uitgebreide analyse toont aan dat V-GameGym effectief de kloof overbrugt tussen codegeneratienauwkeurigheid en praktische spelontwikkelingsworkflows, waarbij kwantificeerbare kwaliteitsmetrieken worden geboden voor visueel programmeren en het genereren van interactieve elementen.

English

Code large language models have demonstrated remarkable capabilities in programming tasks, yet current benchmarks primarily focus on single modality rather than visual game development. Most existing code-related benchmarks evaluate syntax correctness and execution accuracy, overlooking critical game-specific metrics such as playability, visual aesthetics, and user engagement that are essential for real-world deployment. To address the gap between current LLM capabilities in algorithmic problem-solving and competitive programming versus the comprehensive requirements of practical game development, we present V-GameGym, a comprehensive benchmark comprising 2,219 high-quality samples across 100 thematic clusters derived from real-world repositories, adopting a novel clustering-based curation methodology to ensure both diversity and structural completeness. Further, we introduce a multimodal evaluation framework with an automated LLM-driven pipeline for visual code synthesis using complete UI sandbox environments. Our extensive analysis reveals that V-GameGym effectively bridges the gap between code generation accuracy and practical game development workflows, providing quantifiable quality metrics for visual programming and interactive element generation.

V-GameGym: Visuele Spelgeneratie voor Code-Grote Taalmodellen

V-GameGym: Visual Game Generation for Code Large Language Models

Samenvatting

Support