오락: 다양한 비디오 게임에서 LLM 에이전트의 훈련 및 평가를 위한 기초 벤치마크
Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games
June 4, 2025
저자: Dongmin Park, Minkyu Kim, Beongjun Choi, Junhyuck Kim, Keon Lee, Jonghyun Lee, Inkyu Park, Byeong-Uk Lee, Jaeyoung Hwang, Jaewoo Ahn, Ameya S. Mahabaleshwarkar, Bilal Kartal, Pritam Biswas, Yoshi Suhara, Kangwook Lee, Jaewoong Cho
cs.AI
초록
대형 언어 모델(LLM) 에이전트는 게임 산업을 재편하고 있으며, 특히 더 지능적이고 인간 친화적인 게임 캐릭터를 통해 그 영향력을 확대하고 있다. 그러나 기존의 게임 벤치마크는 실질적인 요구를 충족시키지 못하고 있다: 다양한 게임 장르에 걸친 LLM의 능력을 평가하는 데 부족하며, 복잡한 게임 플레이에 필수적인 에이전트 모듈에 대한 연구가 부족하고, 사전 훈련된 LLM을 게임 에이전트로 정렬하기 위한 미세 조정 데이터셋이 부족하다. 이러한 격차를 메우기 위해, 우리는 다양한 실제 비디오 게임에서 LLM 에이전트를 훈련하고 평가하기 위해 설계된 기초 벤치마크인 \benchname{}을 제시한다. 기존 벤치마크와 달리, Orak은 모든 주요 장르를 아우르는 12개의 인기 비디오 게임을 포함하여, 복잡한 게임 시나리오에 필수적인 LLM 능력과 에이전트 모듈에 대한 포괄적인 연구를 가능하게 한다. LLM의 일관된 평가를 지원하기 위해, 우리는 LLM이 게임과 원활하게 연결되고 에이전트 모듈을 조작할 수 있도록 하는 Model Context Protocol (MCP) 기반의 플러그 앤 플레이 인터페이스를 도입한다. 또한, 다양한 게임 장르에 걸친 LLM 게임 플레이 궤적으로 구성된 미세 조정 데이터셋을 제안한다. Orak은 일반 게임 점수 리더보드, LLM 배틀 아레나, 시각적 입력 상태, 에이전트 전략, 미세 조정 효과에 대한 심층 분석을 포함한 포괄적인 평가 프레임워크를 제공하여, 범용 게임 에이전트 구축을 위한 기반을 마련한다. 코드는 https://github.com/krafton-ai/Orak에서 확인할 수 있다.
English
Large Language Model (LLM) agents are reshaping the game industry,
particularly with more intelligent and human-preferable game characters.
However, existing game benchmarks fall short of practical needs: they lack
evaluations of diverse LLM capabilities across various game genres, studies of
agentic modules crucial for complex gameplay, and fine-tuning datasets for
aligning pre-trained LLMs into gaming agents. To fill these gaps, we present
\benchname{}, a foundational benchmark designed to train and evaluate
LLM agents across diverse real-world video games. Unlike existing benchmarks,
Orak includes 12 popular video games spanning all major genres, enabling
comprehensive studies of LLM capabilities and agentic modules essential for
intricate game scenarios. To support consistent evaluation of LLMs, we
introduce a plug-and-play interface based on Model Context Protocol (MCP) that
enables LLMs to seamlessly connect with games and manipulate agentic modules.
Additionally, we propose a fine-tuning dataset, consisting of LLM gameplay
trajectories across diverse game genres. Orak offers a comprehensive evaluation
framework, encompassing general game score leaderboards, LLM battle arenas, and
in-depth analyses of visual input state, agentic strategies, and fine-tuning
effects, establishing a foundation towards building generic gaming agents. Code
is available at https://github.com/krafton-ai/Orak.