ChatPaper.aiChatPaper

FlashAdventure: Un punto de referencia para agentes de interfaz gráfica que resuelven arcos narrativos completos en diversos juegos de aventuras.

FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games

September 1, 2025
Autores: Jaewoo Ahn, Junseo Kim, Heeseung Yun, Jaehyeon Son, Dongmin Park, Jaewoong Cho, Gunhee Kim
cs.AI

Resumen

Los agentes GUI impulsados por LLM muestran potencial para interactuar con diversos entornos digitales. Entre estos, los videojuegos ofrecen un campo de pruebas valioso debido a sus interfaces variadas, siendo los juegos de aventura un desafío adicional por sus interacciones complejas y basadas en narrativas. Sin embargo, los puntos de referencia existentes para juegos carecen de diversidad y rara vez evalúan a los agentes en la finalización de historias completas. Para abordar esto, presentamos FlashAdventure, un punto de referencia compuesto por 34 juegos de aventura basados en Flash, diseñado para evaluar la finalización de arcos narrativos completos y abordar la brecha observación-comportamiento: el desafío de recordar y actuar sobre información previa del juego. También proponemos CUA-as-a-Judge, un evaluador automatizado de jugabilidad, y COAST, un marco agéntico que aprovecha la memoria a largo plazo de pistas para planificar y resolver mejor tareas secuenciales. Los experimentos muestran que los agentes GUI actuales tienen dificultades con arcos narrativos completos, mientras que COAST mejora la finalización de hitos al cerrar la brecha observación-comportamiento. No obstante, una marcada discrepancia entre humanos y los agentes de mejor rendimiento justifica esfuerzos continuos de investigación para reducir esta brecha.
English
GUI agents powered by LLMs show promise in interacting with diverse digital environments. Among these, video games offer a valuable testbed due to their varied interfaces, with adventure games posing additional challenges through complex, narrative-driven interactions. Existing game benchmarks, however, lack diversity and rarely evaluate agents on completing entire storylines. To address this, we introduce FlashAdventure, a benchmark of 34 Flash-based adventure games designed to test full story arc completion and tackle the observation-behavior gap: the challenge of remembering and acting on earlier gameplay information. We also propose CUA-as-a-Judge, an automated gameplay evaluator, and COAST, an agentic framework leveraging long-term clue memory to better plan and solve sequential tasks. Experiments show current GUI agents struggle with full story arcs, while COAST improves milestone completion by bridging the observation-behavior gap. Nonetheless, a marked discrepancy between humans and best-performing agents warrants continued research efforts to narrow this divide.
PDF181September 3, 2025