V-GameGym: Visuelle Spielgenerierung für Code-Großsprachmodelle

papers.abstract

Code-Large-Language-Models haben bemerkenswerte Fähigkeiten bei Programmieraufgaben gezeigt, doch konzentrieren sich aktuelle Benchmarks hauptsächlich auf Einzelmodalitäten anstatt auf visuelle Spieleentwicklung. Die meisten bestehenden Code-bezogenen Benchmarks bewerten die Syntaxkorrektheit und Ausführungsgenauigkeit, übersehen jedoch kritische spielspezifische Metriken wie Spielbarkeit, visuelle Ästhetik und Benutzerengagement, die für den praktischen Einsatz entscheidend sind. Um die Lücke zwischen den aktuellen Fähigkeiten von LLMs im algorithmischen Problemlösen und kompetitiven Programmieren und den umfassenden Anforderungen der praktischen Spieleentwicklung zu schließen, präsentieren wir V-GameGym, einen umfassenden Benchmark, der 2.219 hochwertige Proben aus 100 thematischen Clustern umfasst, die aus realen Repositories abgeleitet wurden. Dabei verwenden wir eine neuartige, clusterbasierte Kuratierungsmethode, um sowohl Vielfalt als auch strukturelle Vollständigkeit sicherzustellen. Darüber hinaus führen wir ein multimodales Bewertungsframework mit einer automatisierten, LLM-gesteuerten Pipeline zur visuellen Codesynthese in vollständigen UI-Sandbox-Umgebungen ein. Unsere umfangreiche Analyse zeigt, dass V-GameGym effektiv die Lücke zwischen der Genauigkeit der Codegenerierung und den praktischen Workflows der Spieleentwicklung schließt und quantifizierbare Qualitätsmetriken für visuelle Programmierung und die Erzeugung interaktiver Elemente liefert.

English

Code large language models have demonstrated remarkable capabilities in programming tasks, yet current benchmarks primarily focus on single modality rather than visual game development. Most existing code-related benchmarks evaluate syntax correctness and execution accuracy, overlooking critical game-specific metrics such as playability, visual aesthetics, and user engagement that are essential for real-world deployment. To address the gap between current LLM capabilities in algorithmic problem-solving and competitive programming versus the comprehensive requirements of practical game development, we present V-GameGym, a comprehensive benchmark comprising 2,219 high-quality samples across 100 thematic clusters derived from real-world repositories, adopting a novel clustering-based curation methodology to ensure both diversity and structural completeness. Further, we introduce a multimodal evaluation framework with an automated LLM-driven pipeline for visual code synthesis using complete UI sandbox environments. Our extensive analysis reveals that V-GameGym effectively bridges the gap between code generation accuracy and practical game development workflows, providing quantifiable quality metrics for visual programming and interactive element generation.

V-GameGym: Visuelle Spielgenerierung für Code-Großsprachmodelle

V-GameGym: Visual Game Generation for Code Large Language Models

papers.abstract

Support