Orak: 多様なビデオゲームにおけるLLMエージェントのトレーニングと評価のための基盤的ベンチマーク
Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games
June 4, 2025
著者: Dongmin Park, Minkyu Kim, Beongjun Choi, Junhyuck Kim, Keon Lee, Jonghyun Lee, Inkyu Park, Byeong-Uk Lee, Jaeyoung Hwang, Jaewoo Ahn, Ameya S. Mahabaleshwarkar, Bilal Kartal, Pritam Biswas, Yoshi Suhara, Kangwook Lee, Jaewoong Cho
cs.AI
要旨
大規模言語モデル(LLM)エージェントは、特に知性的で人間好みのゲームキャラクターを通じて、ゲーム業界を再構築しつつある。しかし、既存のゲームベンチマークは実用的なニーズに応えられていない:様々なゲームジャンルにわたる多様なLLM能力の評価、複雑なゲームプレイに不可欠なエージェントモジュールの研究、事前学習済みLLMをゲームエージェントに適合させるためのファインチューニングデータセットが不足している。これらのギャップを埋めるため、我々は\benchname{}を提案する。これは、多様な現実世界のビデオゲームにわたってLLMエージェントを訓練・評価するための基盤となるベンチマークである。既存のベンチマークとは異なり、Orakは主要なジャンルを網羅する12の有名なビデオゲームを含み、複雑なゲームシナリオに不可欠なLLM能力とエージェントモジュールの包括的な研究を可能にする。LLMの一貫した評価を支援するため、Model Context Protocol(MCP)に基づくプラグアンドプレイインターフェースを導入し、LLMがゲームとシームレスに接続し、エージェントモジュールを操作できるようにする。さらに、多様なゲームジャンルにわたるLLMゲームプレイ軌跡からなるファインチューニングデータセットを提案する。Orakは、一般的なゲームスコアリーダーボード、LLMバトルアリーナ、視覚入力状態、エージェント戦略、ファインチューニング効果の詳細な分析を含む包括的な評価フレームワークを提供し、汎用ゲームエージェントの構築に向けた基盤を確立する。コードはhttps://github.com/krafton-ai/Orakで利用可能である。
English
Large Language Model (LLM) agents are reshaping the game industry,
particularly with more intelligent and human-preferable game characters.
However, existing game benchmarks fall short of practical needs: they lack
evaluations of diverse LLM capabilities across various game genres, studies of
agentic modules crucial for complex gameplay, and fine-tuning datasets for
aligning pre-trained LLMs into gaming agents. To fill these gaps, we present
\benchname{}, a foundational benchmark designed to train and evaluate
LLM agents across diverse real-world video games. Unlike existing benchmarks,
Orak includes 12 popular video games spanning all major genres, enabling
comprehensive studies of LLM capabilities and agentic modules essential for
intricate game scenarios. To support consistent evaluation of LLMs, we
introduce a plug-and-play interface based on Model Context Protocol (MCP) that
enables LLMs to seamlessly connect with games and manipulate agentic modules.
Additionally, we propose a fine-tuning dataset, consisting of LLM gameplay
trajectories across diverse game genres. Orak offers a comprehensive evaluation
framework, encompassing general game score leaderboards, LLM battle arenas, and
in-depth analyses of visual input state, agentic strategies, and fine-tuning
effects, establishing a foundation towards building generic gaming agents. Code
is available at https://github.com/krafton-ai/Orak.