V-GameGym : Génération visuelle de jeux pour les grands modèles de langage de programmation

papers.abstract

Les modèles de langage de grande taille spécialisés dans le code ont démontré des capacités remarquables dans les tâches de programmation, mais les benchmarks actuels se concentrent principalement sur une modalité unique plutôt que sur le développement de jeux visuels. La plupart des benchmarks existants liés au code évaluent la correction syntaxique et la précision d'exécution, négligeant des métriques critiques spécifiques aux jeux telles que la jouabilité, l'esthétique visuelle et l'engagement des utilisateurs, qui sont essentielles pour un déploiement en conditions réelles. Pour combler l'écart entre les capacités actuelles des LLM en résolution de problèmes algorithmiques et en programmation compétitive par rapport aux exigences complètes du développement pratique de jeux, nous présentons V-GameGym, un benchmark complet comprenant 2 219 échantillons de haute qualité répartis en 100 clusters thématiques issus de dépôts réels, adoptant une méthodologie de curation basée sur le clustering pour garantir à la fois la diversité et l'exhaustivité structurelle. De plus, nous introduisons un cadre d'évaluation multimodal avec un pipeline automatisé piloté par LLM pour la synthèse de code visuel utilisant des environnements sandbox UI complets. Notre analyse approfondie révèle que V-GameGym comble efficacement l'écart entre la précision de la génération de code et les workflows pratiques de développement de jeux, fournissant des métriques de qualité quantifiables pour la programmation visuelle et la génération d'éléments interactifs.

English

Code large language models have demonstrated remarkable capabilities in programming tasks, yet current benchmarks primarily focus on single modality rather than visual game development. Most existing code-related benchmarks evaluate syntax correctness and execution accuracy, overlooking critical game-specific metrics such as playability, visual aesthetics, and user engagement that are essential for real-world deployment. To address the gap between current LLM capabilities in algorithmic problem-solving and competitive programming versus the comprehensive requirements of practical game development, we present V-GameGym, a comprehensive benchmark comprising 2,219 high-quality samples across 100 thematic clusters derived from real-world repositories, adopting a novel clustering-based curation methodology to ensure both diversity and structural completeness. Further, we introduce a multimodal evaluation framework with an automated LLM-driven pipeline for visual code synthesis using complete UI sandbox environments. Our extensive analysis reveals that V-GameGym effectively bridges the gap between code generation accuracy and practical game development workflows, providing quantifiable quality metrics for visual programming and interactive element generation.

V-GameGym : Génération visuelle de jeux pour les grands modèles de langage de programmation

V-GameGym: Visual Game Generation for Code Large Language Models

papers.abstract

Support