V-GameGym: Generación Visual de Juegos para Modelos de Lenguaje de Gran Escala en Código
V-GameGym: Visual Game Generation for Code Large Language Models
September 24, 2025
Autores: Wei Zhang, Jack Yang, Renshuai Tao, Lingzheng Chai, Shawn Guo, Jiajun Wu, Xiaoming Chen, Ganqu Cui, Ning Ding, Xander Xu, Hu Wei, Bowen Zhou
cs.AI
Resumen
Los modelos de lenguaje de código de gran escala han demostrado capacidades notables en tareas de programación, sin embargo, los puntos de referencia actuales se centran principalmente en una sola modalidad en lugar del desarrollo de juegos visuales. La mayoría de los puntos de referencia relacionados con código evalúan la corrección sintáctica y la precisión de ejecución, pasando por alto métricas críticas específicas de juegos, como la jugabilidad, la estética visual y el compromiso del usuario, que son esenciales para el despliegue en el mundo real. Para abordar la brecha entre las capacidades actuales de los LLM en la resolución de problemas algorítmicos y la programación competitiva frente a los requisitos integrales del desarrollo práctico de juegos, presentamos V-GameGym, un punto de referencia integral que comprende 2,219 muestras de alta calidad en 100 grupos temáticos derivados de repositorios del mundo real, adoptando una metodología de curación basada en agrupación novedosa para garantizar tanto la diversidad como la integridad estructural. Además, introducimos un marco de evaluación multimodal con una canalización automatizada impulsada por LLM para la síntesis visual de código utilizando entornos de sandbox de UI completos. Nuestro análisis extensivo revela que V-GameGym efectivamente cierra la brecha entre la precisión de la generación de código y los flujos de trabajo prácticos de desarrollo de juegos, proporcionando métricas de calidad cuantificables para la programación visual y la generación de elementos interactivos.
English
Code large language models have demonstrated remarkable capabilities in
programming tasks, yet current benchmarks primarily focus on single modality
rather than visual game development. Most existing code-related benchmarks
evaluate syntax correctness and execution accuracy, overlooking critical
game-specific metrics such as playability, visual aesthetics, and user
engagement that are essential for real-world deployment. To address the gap
between current LLM capabilities in algorithmic problem-solving and competitive
programming versus the comprehensive requirements of practical game
development, we present V-GameGym, a comprehensive benchmark comprising 2,219
high-quality samples across 100 thematic clusters derived from real-world
repositories, adopting a novel clustering-based curation methodology to ensure
both diversity and structural completeness. Further, we introduce a multimodal
evaluation framework with an automated LLM-driven pipeline for visual code
synthesis using complete UI sandbox environments. Our extensive analysis
reveals that V-GameGym effectively bridges the gap between code generation
accuracy and practical game development workflows, providing quantifiable
quality metrics for visual programming and interactive element generation.