FlashAdventure: Un Benchmark per Agenti GUI che Risolvono Archi Narrativi Completi in Giochi d'Avventura Diversificati
FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games
September 1, 2025
Autori: Jaewoo Ahn, Junseo Kim, Heeseung Yun, Jaehyeon Son, Dongmin Park, Jaewoong Cho, Gunhee Kim
cs.AI
Abstract
Gli agenti GUI basati su LLM dimostrano un potenziale promettente nell'interazione con ambienti digitali diversificati. Tra questi, i videogiochi offrono un banco di prova prezioso grazie alle loro interfacce variegate, con i giochi d'avventura che presentano ulteriori sfide attraverso interazioni complesse e guidate dalla narrazione. Tuttavia, i benchmark esistenti per i giochi mancano di diversità e raramente valutano gli agenti sul completamento di intere trame. Per affrontare questa lacuna, introduciamo FlashAdventure, un benchmark composto da 34 giochi d'avventura basati su Flash, progettato per testare il completamento di interi archi narrativi e affrontare il divario osservazione-comportamento: la sfida di ricordare e agire sulle informazioni raccolte durante il gameplay. Proponiamo inoltre CUA-as-a-Judge, un valutatore automatizzato del gameplay, e COAST, un framework agentico che sfrutta la memoria a lungo termine degli indizi per pianificare e risolvere meglio i compiti sequenziali. Gli esperimenti mostrano che gli attuali agenti GUI faticano a completare interi archi narrativi, mentre COAST migliora il raggiungimento delle milestone colmando il divario osservazione-comportamento. Tuttavia, una marcata discrepanza tra gli esseri umani e gli agenti più performanti giustifica ulteriori sforzi di ricerca per ridurre questo divario.
English
GUI agents powered by LLMs show promise in interacting with diverse digital
environments. Among these, video games offer a valuable testbed due to their
varied interfaces, with adventure games posing additional challenges through
complex, narrative-driven interactions. Existing game benchmarks, however, lack
diversity and rarely evaluate agents on completing entire storylines. To
address this, we introduce FlashAdventure, a benchmark of 34 Flash-based
adventure games designed to test full story arc completion and tackle the
observation-behavior gap: the challenge of remembering and acting on earlier
gameplay information. We also propose CUA-as-a-Judge, an automated gameplay
evaluator, and COAST, an agentic framework leveraging long-term clue memory to
better plan and solve sequential tasks. Experiments show current GUI agents
struggle with full story arcs, while COAST improves milestone completion by
bridging the observation-behavior gap. Nonetheless, a marked discrepancy
between humans and best-performing agents warrants continued research efforts
to narrow this divide.