V-GameGym: Визуальная генерация игр для крупных языковых моделей программирования

Аннотация

Крупные языковые модели для работы с кодом продемонстрировали впечатляющие возможности в решении задач программирования, однако современные бенчмарки в основном сосредоточены на одномодальных задачах, а не на разработке визуальных игр. Большинство существующих бенчмарков, связанных с кодом, оценивают корректность синтаксиса и точность выполнения, упуская из виду ключевые игровые метрики, такие как играбельность, визуальная эстетика и вовлеченность пользователей, которые имеют решающее значение для реального применения. Чтобы устранить разрыв между текущими возможностями языковых моделей в решении алгоритмических задач и соревновательного программирования и комплексными требованиями практической разработки игр, мы представляем V-GameGym — всеобъемлющий бенчмарк, включающий 2 219 высококачественных образцов, распределенных по 100 тематическим кластерам, созданным на основе реальных репозиториев, с использованием новой методологии кластеризации для обеспечения как разнообразия, так и структурной полноты. Кроме того, мы вводим мультимодальную систему оценки с автоматизированным конвейером на основе языковых моделей для синтеза визуального кода с использованием полноценных UI-сред. Наш обширный анализ показывает, что V-GameGym эффективно устраняет разрыв между точностью генерации кода и практическими рабочими процессами разработки игр, предоставляя количественные метрики качества для визуального программирования и генерации интерактивных элементов.

English

Code large language models have demonstrated remarkable capabilities in programming tasks, yet current benchmarks primarily focus on single modality rather than visual game development. Most existing code-related benchmarks evaluate syntax correctness and execution accuracy, overlooking critical game-specific metrics such as playability, visual aesthetics, and user engagement that are essential for real-world deployment. To address the gap between current LLM capabilities in algorithmic problem-solving and competitive programming versus the comprehensive requirements of practical game development, we present V-GameGym, a comprehensive benchmark comprising 2,219 high-quality samples across 100 thematic clusters derived from real-world repositories, adopting a novel clustering-based curation methodology to ensure both diversity and structural completeness. Further, we introduce a multimodal evaluation framework with an automated LLM-driven pipeline for visual code synthesis using complete UI sandbox environments. Our extensive analysis reveals that V-GameGym effectively bridges the gap between code generation accuracy and practical game development workflows, providing quantifiable quality metrics for visual programming and interactive element generation.

V-GameGym: Визуальная генерация игр для крупных языковых моделей программирования

V-GameGym: Visual Game Generation for Code Large Language Models

Аннотация

Support