GameDevBench: Avaliação de Capacidades Agentes por Meio do Desenvolvimento de Jogos

Resumo

Apesar dos rápidos avanços em agentes de codificação, o progresso nas suas contrapartes multimodais tem ficado para trás. Um desafio fundamental é a escassez de bancos de teste de avaliação que combinem a complexidade do desenvolvimento de software com a necessidade de uma compreensão multimodal profunda. O desenvolvimento de jogos fornece um banco de teste, pois os agentes devem navegar por bases de código grandes e densas, manipulando ativos intrinsecamente multimodais, como shaders, sprites e animações, dentro de uma cena de jogo visual. Apresentamos o GameDevBench, o primeiro benchmark para avaliar agentes em tarefas de desenvolvimento de jogos. O GameDevBench consiste em 132 tarefas derivadas de tutoriais da web e em vídeo. As tarefas exigem uma compreensão multimodal significativa e são complexas — a solução média requer mais de três vezes a quantidade de linhas de código e alterações de arquivo em comparação com benchmarks anteriores de desenvolvimento de software. Os agentes ainda têm dificuldades com o desenvolvimento de jogos, com o melhor agente resolvendo apenas 54,5% das tarefas. Encontramos uma forte correlação entre a dificuldade percebida da tarefa e a complexidade multimodal, com as taxas de sucesso caindo de 46,9% em tarefas orientadas para a jogabilidade para 31,6% em tarefas de gráficos 2D. Para melhorar a capacidade multimodal, introduzimos dois mecanismos simples de feedback baseados em imagem e vídeo para agentes. Apesar da sua simplicidade, estes métodos melhoram consistentemente o desempenho, sendo a maior mudança um aumento no desempenho do Claude Sonnet 4.5 de 33,3% para 47,7%. Lançamos publicamente o GameDevBench para apoiar mais pesquisas sobre o desenvolvimento de jogos por agentes.

English

Despite rapid progress on coding agents, progress on their multimodal counterparts has lagged behind. A key challenge is the scarcity of evaluation testbeds that combine the complexity of software development with the need for deep multimodal understanding. Game development provides such a testbed as agents must navigate large, dense codebases while manipulating intrinsically multimodal assets such as shaders, sprites, and animations within a visual game scene. We present GameDevBench, the first benchmark for evaluating agents on game development tasks. GameDevBench consists of 132 tasks derived from web and video tutorials. Tasks require significant multimodal understanding and are complex -- the average solution requires over three times the amount of lines of code and file changes compared to prior software development benchmarks. Agents still struggle with game development, with the best agent solving only 54.5% of tasks. We find a strong correlation between perceived task difficulty and multimodal complexity, with success rates dropping from 46.9% on gameplay-oriented tasks to 31.6% on 2D graphics tasks. To improve multimodal capability, we introduce two simple image and video-based feedback mechanisms for agents. Despite their simplicity, these methods consistently improve performance, with the largest change being an increase in Claude Sonnet 4.5's performance from 33.3% to 47.7%. We release GameDevBench publicly to support further research into agentic game development.

GameDevBench: Avaliação de Capacidades Agentes por Meio do Desenvolvimento de Jogos

GameDevBench: Evaluating Agentic Capabilities Through Game Development

Resumo

Support