GBQA: 품질 보증 엔지니어로서의 대규모 언어 모델 평가를 위한 게임 벤치마크
GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers
April 3, 2026
저자: Shufan Jiang, Chios Chen, Zhiyang Chen
cs.AI
초록
자동화된 버그 발견은 현대 소프트웨어 개발에서 여전히 중요한 과제로 남아 있습니다. 코드 생성과 비교할 때, 동적 런타임 환경의 복잡성으로 인해 대규모 언어 모델(LLM)이 버그를 발견하는 것은 상당히 더 어렵습니다. 본 논문에서는 대표적인 도메인으로 게임 개발을 채택하고, LLM이 소프트웨어 버그를 자율적으로 탐지할 수 있는지 평가하기 위해 30개의 게임과 3가지 난이도에 걸쳐 124개의 인간 검증 버그를 포함한 Game Benchmark for Quality Assurance(GBQA)를 소개합니다. 이 벤치마크는 확장 가능한 방식으로 게임을 개발하고 버그를 주입하는 다중 에이전트 시스템을 통해 구축되었으며, 정확성을 보장하기 위해 인간 전문가가 참여합니다. 더불어, 다중 라운드 ReAct 루프와 메모리 메커니즘을 갖춘 기준 상호작용 에이전트를 제공하여 다양한 LLM이 게임 환경을 장기적으로 탐색하며 버그를 탐지할 수 있도록 합니다. 최첨단 LLM에 대한 광범위한 실험 결과, 자율적인 버그 발견은 여전히 매우 어려운 과제임을 보여줍니다: 가장 높은 성능을 보인 모델인 사고 모드의 Claude-4.6-Opus조차 검증된 버그의 48.39%만 식별했습니다. 우리는 GBQA가 적절한 테스트베드와 평가 기준을 제공하며, 이에 대한 지속적인 발전이 자율 소프트웨어 공학의 격차를 해소하는 데 도움이 될 것이라고 믿습니다.
English
The autonomous discovery of bugs remains a significant challenge in modern software development. Compared to code generation, the complexity of dynamic runtime environments makes bug discovery considerably harder for large language models (LLMs). In this paper, we take game development as a representative domain and introduce the Game Benchmark for Quality Assurance (GBQA), a benchmark containing 30 games and 124 human-verified bugs across three difficulty levels, to evaluate whether LLMs can autonomously detect software bugs. The benchmark is constructed using a multi-agent system that develops games and injects bugs in a scalable manner, with human experts in the loop to ensure correctness. Moreover, we provide a baseline interactive agent equipped with a multi-round ReAct loop and a memory mechanism, enabling long-horizon exploration of game environments for bug detection across different LLMs. Extensive experiments on frontier LLMs demonstrate that autonomous bug discovery remains highly challenging: the best-performing model, Claude-4.6-Opus in thinking mode, identifies only 48.39% of the verified bugs. We believe GBQA provides an adequate testbed and evaluation criterion, and that further progress on it will help close the gap in autonomous software engineering.