GameDevBench: Het Evalueren van Agentische Vaardigheden door Spelontwikkeling

Samenvatting

Ondanks snelle vooruitgang op het gebied van codeer-agents, blijft de ontwikkeling van hun multimodale tegenhangers achter. Een belangrijke uitdaging is het gebrek aan evaluatieplatforms die de complexiteit van software-ontwikkeling combineren met de noodzaak van diepgaand multimodaal begrip. Game-ontwikkeling biedt zo'n platform, omdat agents moeten navigeren door grote, complexe codebasissen terwijl ze intrinsiek multimodale elementen zoals shaders, sprites en animaties moeten manipuleren binnen een visuele game-omgeving. Wij presenteren GameDevBench, de eerste benchmark voor het evalueren van agents op game-ontwikkelingstaken. GameDevBench bestaat uit 132 taken, afgeleid van web- en videotutorials. De taken vereisen aanzienlijk multimodaal begrip en zijn complex – de gemiddelde oplossing vereist meer dan drie keer zoveel regels code en bestandswijzigingen in vergelijking met eerdere software-ontwikkelingsbenchmarks. Agents hebben nog steeds moeite met game-ontwikkeling; de beste agent lost slechts 54,5% van de taken op. We zien een sterke correlatie tussen de waargenomen taakmoeilijkheid en de multimodale complexiteit, waarbij de slagingspercentages dalen van 46,9% voor gameplay-gerichte taken tot 31,6% voor 2D-grafische taken. Om de multimodale capaciteit te verbeteren, introduceren we twee eenvoudige feedbackmechanismen op basis van afbeeldingen en video's voor agents. Ondanks hun eenvoud verbeteren deze methoden consistent de prestaties, waarbij de grootste verandering een stijging is in de prestaties van Claude Sonnet 4.5 van 33,3% naar 47,7%. We geven GameDevBench openbaar vrij om verder onderzoek naar agent-gedreven game-ontwikkeling te ondersteunen.

English

Despite rapid progress on coding agents, progress on their multimodal counterparts has lagged behind. A key challenge is the scarcity of evaluation testbeds that combine the complexity of software development with the need for deep multimodal understanding. Game development provides such a testbed as agents must navigate large, dense codebases while manipulating intrinsically multimodal assets such as shaders, sprites, and animations within a visual game scene. We present GameDevBench, the first benchmark for evaluating agents on game development tasks. GameDevBench consists of 132 tasks derived from web and video tutorials. Tasks require significant multimodal understanding and are complex -- the average solution requires over three times the amount of lines of code and file changes compared to prior software development benchmarks. Agents still struggle with game development, with the best agent solving only 54.5% of tasks. We find a strong correlation between perceived task difficulty and multimodal complexity, with success rates dropping from 46.9% on gameplay-oriented tasks to 31.6% on 2D graphics tasks. To improve multimodal capability, we introduce two simple image and video-based feedback mechanisms for agents. Despite their simplicity, these methods consistently improve performance, with the largest change being an increase in Claude Sonnet 4.5's performance from 33.3% to 47.7%. We release GameDevBench publicly to support further research into agentic game development.

GameDevBench: Het Evalueren van Agentische Vaardigheden door Spelontwikkeling

GameDevBench: Evaluating Agentic Capabilities Through Game Development

Samenvatting

Support