ChatPaper.aiChatPaper

FlashAdventure : Un benchmark pour les agents d'interface graphique résolvant des arcs narratifs complets dans des jeux d'aventure variés

FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games

September 1, 2025
papers.authors: Jaewoo Ahn, Junseo Kim, Heeseung Yun, Jaehyeon Son, Dongmin Park, Jaewoong Cho, Gunhee Kim
cs.AI

papers.abstract

Les agents d'interface graphique (GUI) alimentés par des modèles de langage de grande taille (LLMs) montrent un potentiel prometteur pour interagir avec des environnements numériques variés. Parmi ceux-ci, les jeux vidéo offrent un terrain d'essai précieux en raison de leurs interfaces diversifiées, les jeux d'aventure présentant des défis supplémentaires grâce à des interactions complexes et narratives. Cependant, les benchmarks de jeux existants manquent de diversité et évaluent rarement les agents sur la complétion d'intégralité des scénarios. Pour remédier à cela, nous introduisons FlashAdventure, un benchmark composé de 34 jeux d'aventure basés sur Flash, conçu pour tester la complétion d'arcs narratifs complets et relever le défi de l'écart observation-comportement : la difficulté de se souvenir et d'agir sur des informations issues de parties précédentes. Nous proposons également CUA-as-a-Judge, un évaluateur automatisé de gameplay, et COAST, un cadre agentique exploitant la mémoire à long terme des indices pour mieux planifier et résoudre des tâches séquentielles. Les expériences montrent que les agents GUI actuels peinent à accomplir des arcs narratifs complets, tandis que COAST améliore l'achèvement des étapes clés en comblant l'écart observation-comportement. Néanmoins, une divergence marquée entre les humains et les agents les plus performants justifie des efforts de recherche continus pour réduire cet écart.
English
GUI agents powered by LLMs show promise in interacting with diverse digital environments. Among these, video games offer a valuable testbed due to their varied interfaces, with adventure games posing additional challenges through complex, narrative-driven interactions. Existing game benchmarks, however, lack diversity and rarely evaluate agents on completing entire storylines. To address this, we introduce FlashAdventure, a benchmark of 34 Flash-based adventure games designed to test full story arc completion and tackle the observation-behavior gap: the challenge of remembering and acting on earlier gameplay information. We also propose CUA-as-a-Judge, an automated gameplay evaluator, and COAST, an agentic framework leveraging long-term clue memory to better plan and solve sequential tasks. Experiments show current GUI agents struggle with full story arcs, while COAST improves milestone completion by bridging the observation-behavior gap. Nonetheless, a marked discrepancy between humans and best-performing agents warrants continued research efforts to narrow this divide.
PDF181September 3, 2025