FlashAdventure: Um Benchmark para Agentes de Interface Gráfica Resolvendo Arcos de História Completos em Jogos de Aventura Diversificados
FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games
September 1, 2025
Autores: Jaewoo Ahn, Junseo Kim, Heeseung Yun, Jaehyeon Son, Dongmin Park, Jaewoong Cho, Gunhee Kim
cs.AI
Resumo
Agentes de interface gráfica (GUI) alimentados por LLMs mostram potencial para interagir com diversos ambientes digitais. Entre esses, os videogames oferecem um valioso campo de testes devido às suas interfaces variadas, com jogos de aventura apresentando desafios adicionais por meio de interações complexas e orientadas por narrativas. No entanto, os benchmarks de jogos existentes carecem de diversidade e raramente avaliam os agentes na conclusão de histórias completas. Para abordar essa lacuna, apresentamos o FlashAdventure, um benchmark composto por 34 jogos de aventura baseados em Flash, projetado para testar a conclusão de arcos narrativos completos e enfrentar a lacuna observação-comportamento: o desafio de lembrar e agir com base em informações anteriores do jogo. Também propomos o CUA-as-a-Judge, um avaliador automatizado de jogabilidade, e o COAST, uma estrutura agentiva que aproveita a memória de pistas de longo prazo para planejar e resolver tarefas sequenciais de forma mais eficaz. Experimentos mostram que os agentes de GUI atuais têm dificuldades com arcos narrativos completos, enquanto o COAST melhora a conclusão de marcos ao superar a lacuna observação-comportamento. No entanto, uma discrepância marcante entre humanos e os agentes de melhor desempenho justifica esforços contínuos de pesquisa para reduzir essa diferença.
English
GUI agents powered by LLMs show promise in interacting with diverse digital
environments. Among these, video games offer a valuable testbed due to their
varied interfaces, with adventure games posing additional challenges through
complex, narrative-driven interactions. Existing game benchmarks, however, lack
diversity and rarely evaluate agents on completing entire storylines. To
address this, we introduce FlashAdventure, a benchmark of 34 Flash-based
adventure games designed to test full story arc completion and tackle the
observation-behavior gap: the challenge of remembering and acting on earlier
gameplay information. We also propose CUA-as-a-Judge, an automated gameplay
evaluator, and COAST, an agentic framework leveraging long-term clue memory to
better plan and solve sequential tasks. Experiments show current GUI agents
struggle with full story arcs, while COAST improves milestone completion by
bridging the observation-behavior gap. Nonetheless, a marked discrepancy
between humans and best-performing agents warrants continued research efforts
to narrow this divide.