FlashAdventure: Бенчмарк для агентов с графическим интерфейсом, решающих полные сюжетные арки в разнообразных приключенческих играх
FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games
September 1, 2025
Авторы: Jaewoo Ahn, Junseo Kim, Heeseung Yun, Jaehyeon Son, Dongmin Park, Jaewoong Cho, Gunhee Kim
cs.AI
Аннотация
Агенты с графическим интерфейсом (GUI), основанные на больших языковых моделях (LLM), демонстрируют потенциал во взаимодействии с разнообразными цифровыми средами. Среди них видеоигры представляют собой ценный полигон для тестирования благодаря их разнообразным интерфейсам, а приключенческие игры добавляют дополнительные сложности через сложные, сюжетно-ориентированные взаимодействия. Однако существующие игровые бенчмарки страдают от недостатка разнообразия и редко оценивают агентов на прохождение полных сюжетных линий. Чтобы решить эту проблему, мы представляем FlashAdventure — бенчмарк из 34 приключенческих игр на основе Flash, предназначенный для тестирования завершения полных сюжетных арок и преодоления разрыва между наблюдением и поведением: задачи запоминания и использования информации, полученной на ранних этапах игры. Мы также предлагаем CUA-as-a-Judge — автоматизированный инструмент оценки игрового процесса, и COAST — агентскую структуру, использующую долгосрочную память о подсказках для более эффективного планирования и решения последовательных задач. Эксперименты показывают, что современные GUI-агенты испытывают трудности с полными сюжетными арками, в то время как COAST улучшает выполнение ключевых этапов, устраняя разрыв между наблюдением и поведением. Тем не менее, значительное расхождение между людьми и лучшими агентами подчеркивает необходимость продолжения исследований для сокращения этого разрыва.
English
GUI agents powered by LLMs show promise in interacting with diverse digital
environments. Among these, video games offer a valuable testbed due to their
varied interfaces, with adventure games posing additional challenges through
complex, narrative-driven interactions. Existing game benchmarks, however, lack
diversity and rarely evaluate agents on completing entire storylines. To
address this, we introduce FlashAdventure, a benchmark of 34 Flash-based
adventure games designed to test full story arc completion and tackle the
observation-behavior gap: the challenge of remembering and acting on earlier
gameplay information. We also propose CUA-as-a-Judge, an automated gameplay
evaluator, and COAST, an agentic framework leveraging long-term clue memory to
better plan and solve sequential tasks. Experiments show current GUI agents
struggle with full story arcs, while COAST improves milestone completion by
bridging the observation-behavior gap. Nonetheless, a marked discrepancy
between humans and best-performing agents warrants continued research efforts
to narrow this divide.