V-GameGym: Визуальная генерация игр для крупных языковых моделей программирования
V-GameGym: Visual Game Generation for Code Large Language Models
September 24, 2025
Авторы: Wei Zhang, Jack Yang, Renshuai Tao, Lingzheng Chai, Shawn Guo, Jiajun Wu, Xiaoming Chen, Ganqu Cui, Ning Ding, Xander Xu, Hu Wei, Bowen Zhou
cs.AI
Аннотация
Крупные языковые модели для работы с кодом продемонстрировали впечатляющие возможности в решении задач программирования, однако современные бенчмарки в основном сосредоточены на одномодальных задачах, а не на разработке визуальных игр. Большинство существующих бенчмарков, связанных с кодом, оценивают корректность синтаксиса и точность выполнения, упуская из виду ключевые игровые метрики, такие как играбельность, визуальная эстетика и вовлеченность пользователей, которые имеют решающее значение для реального применения. Чтобы устранить разрыв между текущими возможностями языковых моделей в решении алгоритмических задач и соревновательного программирования и комплексными требованиями практической разработки игр, мы представляем V-GameGym — всеобъемлющий бенчмарк, включающий 2 219 высококачественных образцов, распределенных по 100 тематическим кластерам, созданным на основе реальных репозиториев, с использованием новой методологии кластеризации для обеспечения как разнообразия, так и структурной полноты. Кроме того, мы вводим мультимодальную систему оценки с автоматизированным конвейером на основе языковых моделей для синтеза визуального кода с использованием полноценных UI-сред. Наш обширный анализ показывает, что V-GameGym эффективно устраняет разрыв между точностью генерации кода и практическими рабочими процессами разработки игр, предоставляя количественные метрики качества для визуального программирования и генерации интерактивных элементов.
English
Code large language models have demonstrated remarkable capabilities in
programming tasks, yet current benchmarks primarily focus on single modality
rather than visual game development. Most existing code-related benchmarks
evaluate syntax correctness and execution accuracy, overlooking critical
game-specific metrics such as playability, visual aesthetics, and user
engagement that are essential for real-world deployment. To address the gap
between current LLM capabilities in algorithmic problem-solving and competitive
programming versus the comprehensive requirements of practical game
development, we present V-GameGym, a comprehensive benchmark comprising 2,219
high-quality samples across 100 thematic clusters derived from real-world
repositories, adopting a novel clustering-based curation methodology to ensure
both diversity and structural completeness. Further, we introduce a multimodal
evaluation framework with an automated LLM-driven pipeline for visual code
synthesis using complete UI sandbox environments. Our extensive analysis
reveals that V-GameGym effectively bridges the gap between code generation
accuracy and practical game development workflows, providing quantifiable
quality metrics for visual programming and interactive element generation.