ChatPaper.aiChatPaper

FlashAdventure: Een Benchmark voor GUI-Agents die Volledige Verhaallijnen Oplossen in Diverse Avonturenspellen

FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games

September 1, 2025
Auteurs: Jaewoo Ahn, Junseo Kim, Heeseung Yun, Jaehyeon Son, Dongmin Park, Jaewoong Cho, Gunhee Kim
cs.AI

Samenvatting

GUI-agents aangedreven door LLM's tonen potentie in het interacteren met diverse digitale omgevingen. Onder deze omgevingen bieden videogames een waardevolle testomgeving vanwege hun gevarieerde interfaces, waarbij avonturengames extra uitdagingen bieden door complexe, narratief gedreven interacties. Bestaande gamebenchmarks missen echter diversiteit en evalueren agents zelden op het voltooien van volledige verhaallijnen. Om dit aan te pakken, introduceren we FlashAdventure, een benchmark van 34 Flash-gebaseerde avonturengames die is ontworpen om het voltooien van volledige verhaalbogen te testen en de kloof tussen observatie en gedrag aan te pakken: de uitdaging om eerdere gameplay-informatie te onthouden en erop te handelen. We stellen ook CUA-as-a-Judge voor, een geautomatiseerde gameplay-evaluator, en COAST, een agentisch framework dat gebruikmaakt van langetermijncluegeheugen om sequentiële taken beter te plannen en op te lossen. Experimenten tonen aan dat huidige GUI-agents moeite hebben met volledige verhaalbogen, terwijl COAST de voltooiing van mijlpalen verbetert door de kloof tussen observatie en gedrag te overbruggen. Desalniettemin wijst een opvallend verschil tussen mensen en de best presterende agents op de noodzaak van voortgezet onderzoek om deze kloof te verkleinen.
English
GUI agents powered by LLMs show promise in interacting with diverse digital environments. Among these, video games offer a valuable testbed due to their varied interfaces, with adventure games posing additional challenges through complex, narrative-driven interactions. Existing game benchmarks, however, lack diversity and rarely evaluate agents on completing entire storylines. To address this, we introduce FlashAdventure, a benchmark of 34 Flash-based adventure games designed to test full story arc completion and tackle the observation-behavior gap: the challenge of remembering and acting on earlier gameplay information. We also propose CUA-as-a-Judge, an automated gameplay evaluator, and COAST, an agentic framework leveraging long-term clue memory to better plan and solve sequential tasks. Experiments show current GUI agents struggle with full story arcs, while COAST improves milestone completion by bridging the observation-behavior gap. Nonetheless, a marked discrepancy between humans and best-performing agents warrants continued research efforts to narrow this divide.
PDF201September 3, 2025