GBQA: Un Benchmark de Juegos para Evaluar Modelos de Lenguaje Grandes como Ingenieros de Aseguramiento de Calidad

Resumen

La detección autónoma de errores sigue siendo un desafío significativo en el desarrollo de software moderno. En comparación con la generación de código, la complejidad de los entornos de ejecución dinámicos hace que la detección de errores sea considerablemente más difícil para los modelos de lenguaje grandes (LLMs). En este artículo, tomamos el desarrollo de videojuegos como dominio representativo e introducimos el Benchmark de Juegos para Aseguramiento de Calidad (GBQA), un punto de referencia que contiene 30 juegos y 124 errores verificados por humanos en tres niveles de dificultad, para evaluar si los LLMs pueden detectar errores de software de forma autónoma. El benchmark se construye utilizando un sistema multiagente que desarrolla juegos e inyecta errores de manera escalable, con expertos humanos en el ciclo para garantizar la corrección. Además, proporcionamos un agente interactivo base equipado con un bucle ReAct de múltiples rondas y un mecanismo de memoria, permitiendo una exploración de largo horizonte en entornos de juego para la detección de errores en diferentes LLMs. Experimentos exhaustivos con LLMs de vanguardia demuestran que la detección autónoma de errores sigue siendo altamente desafiante: el modelo con mejor rendimiento, Claude-4.6-Opus en modo pensamiento, identifica solo el 48.39% de los errores verificados. Creemos que GBQA proporciona un banco de pruebas y un criterio de evaluación adecuados, y que los avances futuros en él ayudarán a cerrar la brecha en la ingeniería de software autónoma.

English

The autonomous discovery of bugs remains a significant challenge in modern software development. Compared to code generation, the complexity of dynamic runtime environments makes bug discovery considerably harder for large language models (LLMs). In this paper, we take game development as a representative domain and introduce the Game Benchmark for Quality Assurance (GBQA), a benchmark containing 30 games and 124 human-verified bugs across three difficulty levels, to evaluate whether LLMs can autonomously detect software bugs. The benchmark is constructed using a multi-agent system that develops games and injects bugs in a scalable manner, with human experts in the loop to ensure correctness. Moreover, we provide a baseline interactive agent equipped with a multi-round ReAct loop and a memory mechanism, enabling long-horizon exploration of game environments for bug detection across different LLMs. Extensive experiments on frontier LLMs demonstrate that autonomous bug discovery remains highly challenging: the best-performing model, Claude-4.6-Opus in thinking mode, identifies only 48.39% of the verified bugs. We believe GBQA provides an adequate testbed and evaluation criterion, and that further progress on it will help close the gap in autonomous software engineering.

GBQA: Un Benchmark de Juegos para Evaluar Modelos de Lenguaje Grandes como Ingenieros de Aseguramiento de Calidad

GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers

Resumen

Support