ChatPaper.aiChatPaper

Orak: Ein grundlegender Benchmark für das Training und die Bewertung von LLM-Agenten in verschiedenen Videospielen

Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games

June 4, 2025
Autoren: Dongmin Park, Minkyu Kim, Beongjun Choi, Junhyuck Kim, Keon Lee, Jonghyun Lee, Inkyu Park, Byeong-Uk Lee, Jaeyoung Hwang, Jaewoo Ahn, Ameya S. Mahabaleshwarkar, Bilal Kartal, Pritam Biswas, Yoshi Suhara, Kangwook Lee, Jaewoong Cho
cs.AI

Zusammenfassung

Große Sprachmodell-Agenten (LLM-Agenten) revolutionieren die Spieleindustrie, insbesondere durch intelligente und menschenähnliche Spielfiguren. Bisherige Spiele-Benchmarks erfüllen jedoch nicht die praktischen Anforderungen: Es fehlen Bewertungen der vielfältigen Fähigkeiten von LLMs über verschiedene Spielgenres hinweg, Untersuchungen von agentenbasierten Modulen, die für komplexes Gameplay entscheidend sind, sowie Feinabstimmungsdatensätze, um vortrainierte LLMs in Spielagenten zu integrieren. Um diese Lücken zu schließen, präsentieren wir \benchname{}, einen grundlegenden Benchmark, der darauf abzielt, LLM-Agenten in verschiedenen realen Videospielen zu trainieren und zu bewerten. Im Gegensatz zu bestehenden Benchmarks umfasst Orak 12 beliebte Videospiele aus allen Hauptgenres, was umfassende Studien der LLM-Fähigkeiten und der für komplexe Spielszenarien essenziellen agentenbasierten Module ermöglicht. Um eine konsistente Bewertung von LLMs zu unterstützen, führen wir eine Plug-and-Play-Schnittstelle basierend auf dem Model Context Protocol (MCP) ein, die es LLMs ermöglicht, nahtlos mit Spielen zu interagieren und agentenbasierte Module zu steuern. Zusätzlich schlagen wir einen Feinabstimmungsdatensatz vor, der aus LLM-Spielverläufen über verschiedene Spielgenres besteht. Orak bietet ein umfassendes Bewertungsframework, das allgemeine Spielpunktestände, LLM-Kampfarenen sowie detaillierte Analysen des visuellen Eingabezustands, der agentenbasierten Strategien und der Feinabstimmungseffekte umfasst, und legt damit den Grundstein für die Entwicklung generischer Spielagenten. Der Code ist verfügbar unter https://github.com/krafton-ai/Orak.
English
Large Language Model (LLM) agents are reshaping the game industry, particularly with more intelligent and human-preferable game characters. However, existing game benchmarks fall short of practical needs: they lack evaluations of diverse LLM capabilities across various game genres, studies of agentic modules crucial for complex gameplay, and fine-tuning datasets for aligning pre-trained LLMs into gaming agents. To fill these gaps, we present \benchname{}, a foundational benchmark designed to train and evaluate LLM agents across diverse real-world video games. Unlike existing benchmarks, Orak includes 12 popular video games spanning all major genres, enabling comprehensive studies of LLM capabilities and agentic modules essential for intricate game scenarios. To support consistent evaluation of LLMs, we introduce a plug-and-play interface based on Model Context Protocol (MCP) that enables LLMs to seamlessly connect with games and manipulate agentic modules. Additionally, we propose a fine-tuning dataset, consisting of LLM gameplay trajectories across diverse game genres. Orak offers a comprehensive evaluation framework, encompassing general game score leaderboards, LLM battle arenas, and in-depth analyses of visual input state, agentic strategies, and fine-tuning effects, establishing a foundation towards building generic gaming agents. Code is available at https://github.com/krafton-ai/Orak.
PDF92June 5, 2025