GameDevBench: Bewertung agentenbasierter Fähigkeiten durch Spieleentwicklung
GameDevBench: Evaluating Agentic Capabilities Through Game Development
February 11, 2026
papers.authors: Wayne Chi, Yixiong Fang, Arnav Yayavaram, Siddharth Yayavaram, Seth Karten, Qiuhong Anna Wei, Runkun Chen, Alexander Wang, Valerie Chen, Ameet Talwalkar, Chris Donahue
cs.AI
papers.abstract
Trotz rascher Fortschritte bei Code-Agenten hinkt die Entwicklung ihrer multimodalen Gegenstücke hinterher. Eine zentrale Herausforderung ist die Knappheit von Evaluierungs-Testumgebungen, die die Komplexität der Softwareentwicklung mit der Notwendigkeit eines tiefgreifenden multimodalen Verständnisses kombinieren. Die Spieleentwicklung bietet eine solche Testumgebung, da Agenten große, komplexe Codebasen navigieren und gleichzeitig inhärent multimodale Assets wie Shader, Sprites und Animationen innerhalb einer visuellen Spielszene manipulieren müssen. Wir stellen GameDevBench vor, den ersten Benchmark zur Bewertung von Agenten für Aufgaben der Spieleentwicklung. GameDevBench besteht aus 132 Aufgaben, die aus Web- und Video-Tutorials abgeleitet wurden. Die Aufgaben erfordern ein erhebliches multimodales Verständnis und sind komplex – die durchschnittliche Lösung benötigt mehr als dreimal so viele Codezeilen und Dateiänderungen wie frühere Softwareentwicklungs-Benchmarks. Agenten haben nach wie vor Schwierigkeiten mit der Spieleentwicklung; der beste Agent löst nur 54,5 % der Aufgaben. Wir stellen eine starke Korrelation zwischen der wahrgenommenen Aufgabenschwierigkeit und der multimodalen Komplexität fest, wobei die Erfolgsquote von 46,9 % bei spielorientierten Aufgaben auf 31,6 % bei 2D-Grafikaufgaben sinkt. Um die multimodale Fähigkeit zu verbessern, führen wir zwei einfache Feedback-Mechanismen für Agenten auf Basis von Bildern und Videos ein. Trotz ihrer Einfachheit verbessern diese Methoden durchgängig die Leistung, wobei die größte Steigerung bei Claude Sonnet 4.5 von 33,3 % auf 47,7 % zu verzeichnen ist. Wir veröffentlichen GameDevBench öffentlich, um die weitere Forschung zu agentenbasierter Spieleentwicklung zu unterstützen.
English
Despite rapid progress on coding agents, progress on their multimodal counterparts has lagged behind. A key challenge is the scarcity of evaluation testbeds that combine the complexity of software development with the need for deep multimodal understanding. Game development provides such a testbed as agents must navigate large, dense codebases while manipulating intrinsically multimodal assets such as shaders, sprites, and animations within a visual game scene. We present GameDevBench, the first benchmark for evaluating agents on game development tasks. GameDevBench consists of 132 tasks derived from web and video tutorials. Tasks require significant multimodal understanding and are complex -- the average solution requires over three times the amount of lines of code and file changes compared to prior software development benchmarks. Agents still struggle with game development, with the best agent solving only 54.5% of tasks. We find a strong correlation between perceived task difficulty and multimodal complexity, with success rates dropping from 46.9% on gameplay-oriented tasks to 31.6% on 2D graphics tasks. To improve multimodal capability, we introduce two simple image and video-based feedback mechanisms for agents. Despite their simplicity, these methods consistently improve performance, with the largest change being an increase in Claude Sonnet 4.5's performance from 33.3% to 47.7%. We release GameDevBench publicly to support further research into agentic game development.