V-GameGym: Geração Visual de Jogos para Modelos de Linguagem de Grande Escala em Código
V-GameGym: Visual Game Generation for Code Large Language Models
September 24, 2025
Autores: Wei Zhang, Jack Yang, Renshuai Tao, Lingzheng Chai, Shawn Guo, Jiajun Wu, Xiaoming Chen, Ganqu Cui, Ning Ding, Xander Xu, Hu Wei, Bowen Zhou
cs.AI
Resumo
Modelos de linguagem de grande escala para código têm demonstrado capacidades notáveis em tarefas de programação, mas os benchmarks atuais focam principalmente em uma única modalidade, em vez de desenvolvimento de jogos visuais. A maioria dos benchmarks existentes relacionados a código avaliam a correção sintática e a precisão de execução, negligenciando métricas críticas específicas de jogos, como jogabilidade, estética visual e engajamento do usuário, que são essenciais para implantação no mundo real. Para abordar a lacuna entre as capacidades atuais de LLMs em resolução de problemas algorítmicos e programação competitiva versus os requisitos abrangentes do desenvolvimento prático de jogos, apresentamos o V-GameGym, um benchmark abrangente composto por 2.219 amostras de alta qualidade em 100 clusters temáticos derivados de repositórios do mundo real, adotando uma metodologia de curadoria baseada em clustering para garantir diversidade e completude estrutural. Além disso, introduzimos um framework de avaliação multimodal com um pipeline automatizado orientado por LLM para síntese visual de código usando ambientes sandbox de UI completos. Nossa análise extensiva revela que o V-GameGym efetivamente preenche a lacuna entre a precisão de geração de código e os fluxos de trabalho práticos de desenvolvimento de jogos, fornecendo métricas quantificáveis de qualidade para programação visual e geração de elementos interativos.
English
Code large language models have demonstrated remarkable capabilities in
programming tasks, yet current benchmarks primarily focus on single modality
rather than visual game development. Most existing code-related benchmarks
evaluate syntax correctness and execution accuracy, overlooking critical
game-specific metrics such as playability, visual aesthetics, and user
engagement that are essential for real-world deployment. To address the gap
between current LLM capabilities in algorithmic problem-solving and competitive
programming versus the comprehensive requirements of practical game
development, we present V-GameGym, a comprehensive benchmark comprising 2,219
high-quality samples across 100 thematic clusters derived from real-world
repositories, adopting a novel clustering-based curation methodology to ensure
both diversity and structural completeness. Further, we introduce a multimodal
evaluation framework with an automated LLM-driven pipeline for visual code
synthesis using complete UI sandbox environments. Our extensive analysis
reveals that V-GameGym effectively bridges the gap between code generation
accuracy and practical game development workflows, providing quantifiable
quality metrics for visual programming and interactive element generation.