V-GameGym: Geração Visual de Jogos para Modelos de Linguagem de Grande Escala em Código

Resumo

Modelos de linguagem de grande escala para código têm demonstrado capacidades notáveis em tarefas de programação, mas os benchmarks atuais focam principalmente em uma única modalidade, em vez de desenvolvimento de jogos visuais. A maioria dos benchmarks existentes relacionados a código avaliam a correção sintática e a precisão de execução, negligenciando métricas críticas específicas de jogos, como jogabilidade, estética visual e engajamento do usuário, que são essenciais para implantação no mundo real. Para abordar a lacuna entre as capacidades atuais de LLMs em resolução de problemas algorítmicos e programação competitiva versus os requisitos abrangentes do desenvolvimento prático de jogos, apresentamos o V-GameGym, um benchmark abrangente composto por 2.219 amostras de alta qualidade em 100 clusters temáticos derivados de repositórios do mundo real, adotando uma metodologia de curadoria baseada em clustering para garantir diversidade e completude estrutural. Além disso, introduzimos um framework de avaliação multimodal com um pipeline automatizado orientado por LLM para síntese visual de código usando ambientes sandbox de UI completos. Nossa análise extensiva revela que o V-GameGym efetivamente preenche a lacuna entre a precisão de geração de código e os fluxos de trabalho práticos de desenvolvimento de jogos, fornecendo métricas quantificáveis de qualidade para programação visual e geração de elementos interativos.

English

Code large language models have demonstrated remarkable capabilities in programming tasks, yet current benchmarks primarily focus on single modality rather than visual game development. Most existing code-related benchmarks evaluate syntax correctness and execution accuracy, overlooking critical game-specific metrics such as playability, visual aesthetics, and user engagement that are essential for real-world deployment. To address the gap between current LLM capabilities in algorithmic problem-solving and competitive programming versus the comprehensive requirements of practical game development, we present V-GameGym, a comprehensive benchmark comprising 2,219 high-quality samples across 100 thematic clusters derived from real-world repositories, adopting a novel clustering-based curation methodology to ensure both diversity and structural completeness. Further, we introduce a multimodal evaluation framework with an automated LLM-driven pipeline for visual code synthesis using complete UI sandbox environments. Our extensive analysis reveals that V-GameGym effectively bridges the gap between code generation accuracy and practical game development workflows, providing quantifiable quality metrics for visual programming and interactive element generation.

V-GameGym: Geração Visual de Jogos para Modelos de Linguagem de Grande Escala em Código

V-GameGym: Visual Game Generation for Code Large Language Models

Resumo

Support