ChatPaper.aiChatPaper

Orak : Un benchmark fondamental pour l'entraînement et l'évaluation des agents LLM sur des jeux vidéo variés

Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games

June 4, 2025
Auteurs: Dongmin Park, Minkyu Kim, Beongjun Choi, Junhyuck Kim, Keon Lee, Jonghyun Lee, Inkyu Park, Byeong-Uk Lee, Jaeyoung Hwang, Jaewoo Ahn, Ameya S. Mahabaleshwarkar, Bilal Kartal, Pritam Biswas, Yoshi Suhara, Kangwook Lee, Jaewoong Cho
cs.AI

Résumé

Les agents de modèles de langage de grande taille (LLM) sont en train de transformer l'industrie du jeu, en particulier avec des personnages de jeu plus intelligents et plus proches des préférences humaines. Cependant, les benchmarks de jeu existants ne répondent pas aux besoins pratiques : ils manquent d'évaluations des diverses capacités des LLM à travers différents genres de jeux, d'études sur les modules agentiels cruciaux pour des gameplay complexes, et de jeux de données de fine-tuning pour aligner les LLM pré-entraînés en agents de jeu. Pour combler ces lacunes, nous présentons \benchname{}, un benchmark fondamental conçu pour entraîner et évaluer les agents LLM à travers une variété de jeux vidéo du monde réel. Contrairement aux benchmarks existants, Orak inclut 12 jeux vidéo populaires couvrant tous les principaux genres, permettant des études approfondies des capacités des LLM et des modules agentiels essentiels pour des scénarios de jeu complexes. Pour soutenir une évaluation cohérente des LLM, nous introduisons une interface plug-and-play basée sur le Protocole de Contexte de Modèle (MCP) qui permet aux LLM de se connecter de manière transparente aux jeux et de manipuler les modules agentiels. De plus, nous proposons un jeu de données de fine-tuning, composé de trajectoires de gameplay de LLM à travers divers genres de jeux. Orak offre un cadre d'évaluation complet, comprenant des classements généraux de scores de jeu, des arènes de combat pour LLM, et des analyses approfondies de l'état d'entrée visuel, des stratégies agentielles, et des effets de fine-tuning, établissant une base pour la construction d'agents de jeu génériques. Le code est disponible à l'adresse https://github.com/krafton-ai/Orak.
English
Large Language Model (LLM) agents are reshaping the game industry, particularly with more intelligent and human-preferable game characters. However, existing game benchmarks fall short of practical needs: they lack evaluations of diverse LLM capabilities across various game genres, studies of agentic modules crucial for complex gameplay, and fine-tuning datasets for aligning pre-trained LLMs into gaming agents. To fill these gaps, we present \benchname{}, a foundational benchmark designed to train and evaluate LLM agents across diverse real-world video games. Unlike existing benchmarks, Orak includes 12 popular video games spanning all major genres, enabling comprehensive studies of LLM capabilities and agentic modules essential for intricate game scenarios. To support consistent evaluation of LLMs, we introduce a plug-and-play interface based on Model Context Protocol (MCP) that enables LLMs to seamlessly connect with games and manipulate agentic modules. Additionally, we propose a fine-tuning dataset, consisting of LLM gameplay trajectories across diverse game genres. Orak offers a comprehensive evaluation framework, encompassing general game score leaderboards, LLM battle arenas, and in-depth analyses of visual input state, agentic strategies, and fine-tuning effects, establishing a foundation towards building generic gaming agents. Code is available at https://github.com/krafton-ai/Orak.
PDF92June 5, 2025