Orak: Een Fundamentele Benchmark voor het Trainen en Evalueren van LLM-Agenten op Diverse Videogames
Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games
June 4, 2025
Auteurs: Dongmin Park, Minkyu Kim, Beongjun Choi, Junhyuck Kim, Keon Lee, Jonghyun Lee, Inkyu Park, Byeong-Uk Lee, Jaeyoung Hwang, Jaewoo Ahn, Ameya S. Mahabaleshwarkar, Bilal Kartal, Pritam Biswas, Yoshi Suhara, Kangwook Lee, Jaewoong Cho
cs.AI
Samenvatting
Large Language Model (LLM)-agenten zijn bezig de game-industrie te hervormen,
met name door intelligente en mensvriendelijke gamepersonages te introduceren.
Bestaande gamebenchmarks schieten echter tekort in praktische behoeften: ze missen
evaluaties van diverse LLM-capaciteiten over verschillende gamegenres, studies van
agentmodules die cruciaal zijn voor complexe gameplay, en fine-tuning datasets voor
het afstemmen van vooraf getrainde LLM's op gamingagenten. Om deze lacunes op te vullen,
presenteren we \benchname{}, een fundamentele benchmark ontworpen om LLM-agenten te
trainen en evalueren in diverse real-world videogames. In tegenstelling tot bestaande
benchmarks omvat Orak 12 populaire videogames uit alle belangrijke genres, wat
uitgebreide studies mogelijk maakt van LLM-capaciteiten en agentmodules die essentieel
zijn voor ingewikkelde game-scenario's. Om consistente evaluatie van LLM's te ondersteunen,
introduceren we een plug-and-play interface gebaseerd op het Model Context Protocol (MCP)
dat LLM's naadloos laat verbinden met games en agentmodules laat manipuleren. Daarnaast
stellen we een fine-tuning dataset voor, bestaande uit LLM-gameplaytrajecten over diverse
gamegenres. Orak biedt een uitgebreid evaluatieraamwerk, met algemene game-score
leaderboards, LLM-gevechtsarena's, en diepgaande analyses van visuele invoertoestanden,
agentstrategieën en fine-tuning effecten, waarmee een basis wordt gelegd voor het bouwen
van generieke gamingagenten. Code is beschikbaar op https://github.com/krafton-ai/Orak.
English
Large Language Model (LLM) agents are reshaping the game industry,
particularly with more intelligent and human-preferable game characters.
However, existing game benchmarks fall short of practical needs: they lack
evaluations of diverse LLM capabilities across various game genres, studies of
agentic modules crucial for complex gameplay, and fine-tuning datasets for
aligning pre-trained LLMs into gaming agents. To fill these gaps, we present
\benchname{}, a foundational benchmark designed to train and evaluate
LLM agents across diverse real-world video games. Unlike existing benchmarks,
Orak includes 12 popular video games spanning all major genres, enabling
comprehensive studies of LLM capabilities and agentic modules essential for
intricate game scenarios. To support consistent evaluation of LLMs, we
introduce a plug-and-play interface based on Model Context Protocol (MCP) that
enables LLMs to seamlessly connect with games and manipulate agentic modules.
Additionally, we propose a fine-tuning dataset, consisting of LLM gameplay
trajectories across diverse game genres. Orak offers a comprehensive evaluation
framework, encompassing general game score leaderboards, LLM battle arenas, and
in-depth analyses of visual input state, agentic strategies, and fine-tuning
effects, establishing a foundation towards building generic gaming agents. Code
is available at https://github.com/krafton-ai/Orak.