ChatPaper.aiChatPaper

FlashAdventure: 다양한 어드벤처 게임에서 전체 스토리 아크를 해결하는 GUI 에이전트를 위한 벤치마크

FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games

September 1, 2025
저자: Jaewoo Ahn, Junseo Kim, Heeseung Yun, Jaehyeon Son, Dongmin Park, Jaewoong Cho, Gunhee Kim
cs.AI

초록

LLM 기반 GUI 에이전트는 다양한 디지털 환경과 상호작용할 수 있는 잠재력을 보여준다. 이 중에서도 비디오 게임은 다양한 인터페이스를 제공하며, 특히 어드벤처 게임은 복잡하고 서사 중심의 상호작용을 통해 추가적인 도전 과제를 제시한다는 점에서 가치 있는 테스트베드 역할을 한다. 그러나 기존의 게임 벤치마크는 다양성이 부족하며, 에이전트가 전체 스토리라인을 완료하는 능력을 평가하는 경우는 드물다. 이를 해결하기 위해 우리는 34개의 플래시 기반 어드벤처 게임으로 구성된 FlashAdventure 벤치마크를 소개한다. 이 벤치마크는 전체 스토리 아크 완료를 테스트하고, 이전 게임플레이 정보를 기억하고 이를 바탕으로 행동하는 데 어려움을 겪는 관찰-행동 간극 문제를 해결하기 위해 설계되었다. 또한, 자동화된 게임플레이 평가 도구인 CUA-as-a-Judge와 장기적인 단서 기억을 활용하여 순차적 과제를 더 잘 계획하고 해결하기 위한 에이전트 프레임워크인 COAST를 제안한다. 실험 결과, 현재의 GUI 에이전트는 전체 스토리 아크를 완료하는 데 어려움을 겪는 반면, COAST는 관찰-행동 간극을 해소함으로써 주요 단계 완료율을 향상시켰다. 그러나 인간과 최고 성능의 에이전트 간에 뚜렷한 격차가 존재하므로, 이 격차를 좁히기 위한 지속적인 연구가 필요하다.
English
GUI agents powered by LLMs show promise in interacting with diverse digital environments. Among these, video games offer a valuable testbed due to their varied interfaces, with adventure games posing additional challenges through complex, narrative-driven interactions. Existing game benchmarks, however, lack diversity and rarely evaluate agents on completing entire storylines. To address this, we introduce FlashAdventure, a benchmark of 34 Flash-based adventure games designed to test full story arc completion and tackle the observation-behavior gap: the challenge of remembering and acting on earlier gameplay information. We also propose CUA-as-a-Judge, an automated gameplay evaluator, and COAST, an agentic framework leveraging long-term clue memory to better plan and solve sequential tasks. Experiments show current GUI agents struggle with full story arcs, while COAST improves milestone completion by bridging the observation-behavior gap. Nonetheless, a marked discrepancy between humans and best-performing agents warrants continued research efforts to narrow this divide.
PDF181September 3, 2025