Orak: Базовый эталон для обучения и оценки агентов на основе больших языковых моделей в разнообразных видеоиграх
Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games
June 4, 2025
Авторы: Dongmin Park, Minkyu Kim, Beongjun Choi, Junhyuck Kim, Keon Lee, Jonghyun Lee, Inkyu Park, Byeong-Uk Lee, Jaeyoung Hwang, Jaewoo Ahn, Ameya S. Mahabaleshwarkar, Bilal Kartal, Pritam Biswas, Yoshi Suhara, Kangwook Lee, Jaewoong Cho
cs.AI
Аннотация
Крупные языковые модели (LLM) трансформируют игровую индустрию, особенно в плане создания более интеллектуальных и предпочтительных для человека игровых персонажей. Однако существующие игровые бенчмарки не соответствуют практическим потребностям: они не оценивают разнообразные возможности LLM в различных игровых жанрах, не изучают агентные модули, критически важные для сложного геймплея, и не предоставляют наборов данных для тонкой настройки предварительно обученных LLM в игровых агентов. Чтобы устранить эти пробелы, мы представляем \benchname{}, фундаментальный бенчмарк, разработанный для обучения и оценки LLM-агентов в разнообразных реальных видеоиграх. В отличие от существующих бенчмарков, Orak включает 12 популярных видеоигр, охватывающих все основные жанры, что позволяет проводить всесторонние исследования возможностей LLM и агентных модулей, необходимых для сложных игровых сценариев. Для обеспечения последовательной оценки LLM мы представляем plug-and-play интерфейс на основе Model Context Protocol (MCP), который позволяет LLM легко подключаться к играм и управлять агентными модулями. Кроме того, мы предлагаем набор данных для тонкой настройки, состоящий из траекторий игрового процесса LLM в различных игровых жанрах. Orak предлагает комплексную систему оценки, включающую таблицы лидеров по общему игровому счету, арены для сражений LLM и углубленный анализ визуального входного состояния, агентных стратегий и эффектов тонкой настройки, закладывая основу для создания универсальных игровых агентов. Код доступен по адресу https://github.com/krafton-ai/Orak.
English
Large Language Model (LLM) agents are reshaping the game industry,
particularly with more intelligent and human-preferable game characters.
However, existing game benchmarks fall short of practical needs: they lack
evaluations of diverse LLM capabilities across various game genres, studies of
agentic modules crucial for complex gameplay, and fine-tuning datasets for
aligning pre-trained LLMs into gaming agents. To fill these gaps, we present
\benchname{}, a foundational benchmark designed to train and evaluate
LLM agents across diverse real-world video games. Unlike existing benchmarks,
Orak includes 12 popular video games spanning all major genres, enabling
comprehensive studies of LLM capabilities and agentic modules essential for
intricate game scenarios. To support consistent evaluation of LLMs, we
introduce a plug-and-play interface based on Model Context Protocol (MCP) that
enables LLMs to seamlessly connect with games and manipulate agentic modules.
Additionally, we propose a fine-tuning dataset, consisting of LLM gameplay
trajectories across diverse game genres. Orak offers a comprehensive evaluation
framework, encompassing general game score leaderboards, LLM battle arenas, and
in-depth analyses of visual input state, agentic strategies, and fine-tuning
effects, establishing a foundation towards building generic gaming agents. Code
is available at https://github.com/krafton-ai/Orak.