FlashAdventure: Um Benchmark para Agentes de Interface Gráfica Resolvendo Arcos de História Completos em Jogos de Aventura Diversificados

Resumo

Agentes de interface gráfica (GUI) alimentados por LLMs mostram potencial para interagir com diversos ambientes digitais. Entre esses, os videogames oferecem um valioso campo de testes devido às suas interfaces variadas, com jogos de aventura apresentando desafios adicionais por meio de interações complexas e orientadas por narrativas. No entanto, os benchmarks de jogos existentes carecem de diversidade e raramente avaliam os agentes na conclusão de histórias completas. Para abordar essa lacuna, apresentamos o FlashAdventure, um benchmark composto por 34 jogos de aventura baseados em Flash, projetado para testar a conclusão de arcos narrativos completos e enfrentar a lacuna observação-comportamento: o desafio de lembrar e agir com base em informações anteriores do jogo. Também propomos o CUA-as-a-Judge, um avaliador automatizado de jogabilidade, e o COAST, uma estrutura agentiva que aproveita a memória de pistas de longo prazo para planejar e resolver tarefas sequenciais de forma mais eficaz. Experimentos mostram que os agentes de GUI atuais têm dificuldades com arcos narrativos completos, enquanto o COAST melhora a conclusão de marcos ao superar a lacuna observação-comportamento. No entanto, uma discrepância marcante entre humanos e os agentes de melhor desempenho justifica esforços contínuos de pesquisa para reduzir essa diferença.

English

GUI agents powered by LLMs show promise in interacting with diverse digital environments. Among these, video games offer a valuable testbed due to their varied interfaces, with adventure games posing additional challenges through complex, narrative-driven interactions. Existing game benchmarks, however, lack diversity and rarely evaluate agents on completing entire storylines. To address this, we introduce FlashAdventure, a benchmark of 34 Flash-based adventure games designed to test full story arc completion and tackle the observation-behavior gap: the challenge of remembering and acting on earlier gameplay information. We also propose CUA-as-a-Judge, an automated gameplay evaluator, and COAST, an agentic framework leveraging long-term clue memory to better plan and solve sequential tasks. Experiments show current GUI agents struggle with full story arcs, while COAST improves milestone completion by bridging the observation-behavior gap. Nonetheless, a marked discrepancy between humans and best-performing agents warrants continued research efforts to narrow this divide.

FlashAdventure: Um Benchmark para Agentes de Interface Gráfica Resolvendo Arcos de História Completos em Jogos de Aventura Diversificados

FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games

Resumo

Support