V-GameGym: Generación Visual de Juegos para Modelos de Lenguaje de Gran Escala en Código

Resumen

Los modelos de lenguaje de código de gran escala han demostrado capacidades notables en tareas de programación, sin embargo, los puntos de referencia actuales se centran principalmente en una sola modalidad en lugar del desarrollo de juegos visuales. La mayoría de los puntos de referencia relacionados con código evalúan la corrección sintáctica y la precisión de ejecución, pasando por alto métricas críticas específicas de juegos, como la jugabilidad, la estética visual y el compromiso del usuario, que son esenciales para el despliegue en el mundo real. Para abordar la brecha entre las capacidades actuales de los LLM en la resolución de problemas algorítmicos y la programación competitiva frente a los requisitos integrales del desarrollo práctico de juegos, presentamos V-GameGym, un punto de referencia integral que comprende 2,219 muestras de alta calidad en 100 grupos temáticos derivados de repositorios del mundo real, adoptando una metodología de curación basada en agrupación novedosa para garantizar tanto la diversidad como la integridad estructural. Además, introducimos un marco de evaluación multimodal con una canalización automatizada impulsada por LLM para la síntesis visual de código utilizando entornos de sandbox de UI completos. Nuestro análisis extensivo revela que V-GameGym efectivamente cierra la brecha entre la precisión de la generación de código y los flujos de trabajo prácticos de desarrollo de juegos, proporcionando métricas de calidad cuantificables para la programación visual y la generación de elementos interactivos.

English

Code large language models have demonstrated remarkable capabilities in programming tasks, yet current benchmarks primarily focus on single modality rather than visual game development. Most existing code-related benchmarks evaluate syntax correctness and execution accuracy, overlooking critical game-specific metrics such as playability, visual aesthetics, and user engagement that are essential for real-world deployment. To address the gap between current LLM capabilities in algorithmic problem-solving and competitive programming versus the comprehensive requirements of practical game development, we present V-GameGym, a comprehensive benchmark comprising 2,219 high-quality samples across 100 thematic clusters derived from real-world repositories, adopting a novel clustering-based curation methodology to ensure both diversity and structural completeness. Further, we introduce a multimodal evaluation framework with an automated LLM-driven pipeline for visual code synthesis using complete UI sandbox environments. Our extensive analysis reveals that V-GameGym effectively bridges the gap between code generation accuracy and practical game development workflows, providing quantifiable quality metrics for visual programming and interactive element generation.

V-GameGym: Generación Visual de Juegos para Modelos de Lenguaje de Gran Escala en Código

V-GameGym: Visual Game Generation for Code Large Language Models

Resumen

Support