GameDevBench: Valutazione delle Capacità Agenti attraverso lo Sviluppo di Giochi

Abstract

Nonostante i rapidi progressi negli agenti di programmazione, i progressi per le loro controparti multimodali sono rimasti indietro. Una sfida chiave è la scarsità di banchi di prova per la valutazione che combinino la complessità dello sviluppo software con la necessità di una profonda comprensione multimodale. Lo sviluppo di videogiochi fornisce un tale banco di prova, poiché gli agenti devono navigare in codebase ampie e dense manipolando al contempo asset intrinsecamente multimodali come shader, sprite e animazioni all'interno di una scena di gioco visiva. Presentiamo GameDevBench, il primo benchmark per valutare gli agenti su compiti di sviluppo di giochi. GameDevBench è composto da 132 task derivati da tutorial web e video. I compiti richiedono una significativa comprensione multimodale e sono complessi: la soluzione media richiede oltre tre volte il numero di righe di codice e modifiche ai file rispetto ai precedenti benchmark di sviluppo software. Gli agenti hanno ancora difficoltà con lo sviluppo di giochi, con il miglior agente in grado di risolvere solo il 54,5% dei task. Troviamo una forte correlazione tra la difficoltà percepita del compito e la complessità multimodale, con i tassi di successo che scendono dal 46,9% sui task orientati al gameplay al 31,6% sui task di grafica 2D. Per migliorare le capacità multimodali, introduciamo due semplici meccanismi di feedback basati su immagini e video per gli agenti. Nonostante la loro semplicità, questi metodi migliorano costantemente le prestazioni, con il cambiamento più significativo che è un aumento delle prestazioni di Claude Sonnet 4.5 dal 33,3% al 47,7%. Rilasciamo pubblicamente GameDevBench per supportare ulteriori ricerche sullo sviluppo di giochi tramite agenti autonomi.

English

Despite rapid progress on coding agents, progress on their multimodal counterparts has lagged behind. A key challenge is the scarcity of evaluation testbeds that combine the complexity of software development with the need for deep multimodal understanding. Game development provides such a testbed as agents must navigate large, dense codebases while manipulating intrinsically multimodal assets such as shaders, sprites, and animations within a visual game scene. We present GameDevBench, the first benchmark for evaluating agents on game development tasks. GameDevBench consists of 132 tasks derived from web and video tutorials. Tasks require significant multimodal understanding and are complex -- the average solution requires over three times the amount of lines of code and file changes compared to prior software development benchmarks. Agents still struggle with game development, with the best agent solving only 54.5% of tasks. We find a strong correlation between perceived task difficulty and multimodal complexity, with success rates dropping from 46.9% on gameplay-oriented tasks to 31.6% on 2D graphics tasks. To improve multimodal capability, we introduce two simple image and video-based feedback mechanisms for agents. Despite their simplicity, these methods consistently improve performance, with the largest change being an increase in Claude Sonnet 4.5's performance from 33.3% to 47.7%. We release GameDevBench publicly to support further research into agentic game development.

GameDevBench: Valutazione delle Capacità Agenti attraverso lo Sviluppo di Giochi

GameDevBench: Evaluating Agentic Capabilities Through Game Development

Abstract

Support