ChatPaper.aiChatPaper

FlashAdventure: Ein Benchmark für GUI-Agenten zur Lösung vollständiger Handlungsbögen in diversen Adventure-Spielen

FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games

September 1, 2025
papers.authors: Jaewoo Ahn, Junseo Kim, Heeseung Yun, Jaehyeon Son, Dongmin Park, Jaewoong Cho, Gunhee Kim
cs.AI

papers.abstract

GUI-Agenten, die von LLMs (Large Language Models) angetrieben werden, zeigen vielversprechende Ansätze bei der Interaktion mit diversen digitalen Umgebungen. Unter diesen bieten Videospiele aufgrund ihrer vielfältigen Benutzeroberflächen ein wertvolles Testfeld, wobei Adventure-Spiele zusätzliche Herausforderungen durch komplexe, narrativ gesteuerte Interaktionen darstellen. Bestehende Spiel-Benchmarks weisen jedoch eine mangelnde Diversität auf und bewerten Agenten selten hinsichtlich der Vollendung ganzer Handlungsstränge. Um dies zu adressieren, führen wir FlashAdventure ein, einen Benchmark aus 34 Flash-basierten Adventure-Spielen, der darauf abzielt, die Vollendung vollständiger Handlungsbögen zu testen und die Beobachtungs-Verhaltens-Lücke zu überwinden: die Herausforderung, frühere Spielinformationen zu behalten und darauf zu reagieren. Wir schlagen außerdem CUA-as-a-Judge vor, einen automatisierten Spielbewertungsmechanismus, sowie COAST, ein agentenbasiertes Framework, das Langzeitgedächtnis für Hinweise nutzt, um sequenzielle Aufgaben besser zu planen und zu lösen. Experimente zeigen, dass aktuelle GUI-Agenten Schwierigkeiten mit vollständigen Handlungsbögen haben, während COAST die Abschlussrate von Meilensteinen verbessert, indem es die Beobachtungs-Verhaltens-Lücke überbrückt. Dennoch deutet eine deutliche Diskrepanz zwischen Menschen und den leistungsstärksten Agenten darauf hin, dass weitere Forschungsanstrengungen erforderlich sind, um diese Kluft zu verringern.
English
GUI agents powered by LLMs show promise in interacting with diverse digital environments. Among these, video games offer a valuable testbed due to their varied interfaces, with adventure games posing additional challenges through complex, narrative-driven interactions. Existing game benchmarks, however, lack diversity and rarely evaluate agents on completing entire storylines. To address this, we introduce FlashAdventure, a benchmark of 34 Flash-based adventure games designed to test full story arc completion and tackle the observation-behavior gap: the challenge of remembering and acting on earlier gameplay information. We also propose CUA-as-a-Judge, an automated gameplay evaluator, and COAST, an agentic framework leveraging long-term clue memory to better plan and solve sequential tasks. Experiments show current GUI agents struggle with full story arcs, while COAST improves milestone completion by bridging the observation-behavior gap. Nonetheless, a marked discrepancy between humans and best-performing agents warrants continued research efforts to narrow this divide.
PDF181September 3, 2025