GBQA: Un Benchmark di Gioco per Valutare i LLM come Ingegneri dell'Assicurazione della Qualità

Abstract

La scoperta autonoma di bug rimane una sfida significativa nello sviluppo software moderno. Rispetto alla generazione di codice, la complessità degli ambienti di runtime dinamici rende la scoperta di bug considerevolmente più difficile per i grandi modelli linguistici (LLM). In questo articolo, prendiamo lo sviluppo di giochi come dominio rappresentativo e introduciamo il Benchmark per Giochi per l'Assicurazione della Qualità (GBQA), un benchmark che contiene 30 giochi e 124 bug verificati da esseri umani su tre livelli di difficoltà, per valutare se gli LLM possono rilevare autonomamente i bug software. Il benchmark è costruito utilizzando un sistema multi-agente che sviluppa giochi e inietta bug in modo scalabile, con esperti umani nel ciclo per garantire la correttezza. Inoltre, forniamo un agente interattivo di base dotato di un ciclo ReAct multi-round e di un meccanismo di memoria, che consente un'esplorazione a lungo orizzonte degli ambienti di gioco per il rilevamento di bug su diversi LLM. Esperimenti estesi su LLM all'avanguardia dimostrano che la scoperta autonoma di bug rimane estremamente impegnativa: il modello con le migliori prestazioni, Claude-4.6-Opus in modalità thinking, identifica solo il 48,39% dei bug verificati. Riteniamo che GBQA fornisca un adeguato banco di prova e criterio di valutazione, e che ulteriori progressi su di esso aiuteranno a colmare il divario nell'ingegneria del software autonoma.

English

The autonomous discovery of bugs remains a significant challenge in modern software development. Compared to code generation, the complexity of dynamic runtime environments makes bug discovery considerably harder for large language models (LLMs). In this paper, we take game development as a representative domain and introduce the Game Benchmark for Quality Assurance (GBQA), a benchmark containing 30 games and 124 human-verified bugs across three difficulty levels, to evaluate whether LLMs can autonomously detect software bugs. The benchmark is constructed using a multi-agent system that develops games and injects bugs in a scalable manner, with human experts in the loop to ensure correctness. Moreover, we provide a baseline interactive agent equipped with a multi-round ReAct loop and a memory mechanism, enabling long-horizon exploration of game environments for bug detection across different LLMs. Extensive experiments on frontier LLMs demonstrate that autonomous bug discovery remains highly challenging: the best-performing model, Claude-4.6-Opus in thinking mode, identifies only 48.39% of the verified bugs. We believe GBQA provides an adequate testbed and evaluation criterion, and that further progress on it will help close the gap in autonomous software engineering.

GBQA: Un Benchmark di Gioco per Valutare i LLM come Ingegneri dell'Assicurazione della Qualità

GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers

Abstract

Support