V-GameGym: Generazione Visiva di Giochi per Modelli Linguistici di Codice su Larga Scala

Abstract

I modelli linguistici di grandi dimensioni per il codice hanno dimostrato capacità notevoli nelle attività di programmazione, tuttavia i benchmark attuali si concentrano principalmente su una singola modalità piuttosto che sullo sviluppo di giochi visivi. La maggior parte dei benchmark esistenti relativi al codice valuta la correttezza sintattica e l'accuratezza di esecuzione, tralasciando metriche critiche specifiche per i giochi come la giocabilità, l'estetica visiva e l'engagement degli utenti, essenziali per il dispiegamento nel mondo reale. Per colmare il divario tra le attuali capacità dei modelli linguistici nella risoluzione di problemi algoritmici e nella programmazione competitiva rispetto ai requisiti completi dello sviluppo pratico di giochi, presentiamo V-GameGym, un benchmark completo che comprende 2.219 campioni di alta qualità suddivisi in 100 cluster tematici derivati da repository del mondo reale, adottando una metodologia di curatela basata sul clustering per garantire sia la diversità che la completezza strutturale. Inoltre, introduciamo un framework di valutazione multimodale con una pipeline automatizzata guidata da modelli linguistici per la sintesi visiva del codice utilizzando ambienti sandbox UI completi. La nostra analisi estensiva rivela che V-GameGym colma efficacemente il divario tra l'accuratezza nella generazione del codice e i flussi di lavoro pratici per lo sviluppo di giochi, fornendo metriche di qualità quantificabili per la programmazione visiva e la generazione di elementi interattivi.

English

Code large language models have demonstrated remarkable capabilities in programming tasks, yet current benchmarks primarily focus on single modality rather than visual game development. Most existing code-related benchmarks evaluate syntax correctness and execution accuracy, overlooking critical game-specific metrics such as playability, visual aesthetics, and user engagement that are essential for real-world deployment. To address the gap between current LLM capabilities in algorithmic problem-solving and competitive programming versus the comprehensive requirements of practical game development, we present V-GameGym, a comprehensive benchmark comprising 2,219 high-quality samples across 100 thematic clusters derived from real-world repositories, adopting a novel clustering-based curation methodology to ensure both diversity and structural completeness. Further, we introduce a multimodal evaluation framework with an automated LLM-driven pipeline for visual code synthesis using complete UI sandbox environments. Our extensive analysis reveals that V-GameGym effectively bridges the gap between code generation accuracy and practical game development workflows, providing quantifiable quality metrics for visual programming and interactive element generation.

V-GameGym: Generazione Visiva di Giochi per Modelli Linguistici di Codice su Larga Scala

V-GameGym: Visual Game Generation for Code Large Language Models

Abstract

Support