ChatPaper.aiChatPaper

Orak: Un Benchmark Fondamentale per l'Addestramento e la Valutazione di Agenti LLM su Videogiochi Diversificati

Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games

June 4, 2025
Autori: Dongmin Park, Minkyu Kim, Beongjun Choi, Junhyuck Kim, Keon Lee, Jonghyun Lee, Inkyu Park, Byeong-Uk Lee, Jaeyoung Hwang, Jaewoo Ahn, Ameya S. Mahabaleshwarkar, Bilal Kartal, Pritam Biswas, Yoshi Suhara, Kangwook Lee, Jaewoong Cho
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) come agenti stanno rivoluzionando l'industria dei videogiochi, in particolare con personaggi di gioco più intelligenti e preferibili per gli esseri umani. Tuttavia, i benchmark esistenti per i giochi non soddisfano le esigenze pratiche: mancano di valutazioni delle diverse capacità degli LLM attraverso vari generi di giochi, studi sui moduli agentici cruciali per gameplay complessi e dataset di fine-tuning per allineare gli LLM pre-addestrati in agenti di gioco. Per colmare queste lacune, presentiamo \benchname{}, un benchmark fondamentale progettato per addestrare e valutare agenti LLM attraverso una varietà di videogiochi del mondo reale. A differenza dei benchmark esistenti, Orak include 12 videogiochi popolari che coprono tutti i principali generi, consentendo studi completi sulle capacità degli LLM e sui moduli agentici essenziali per scenari di gioco intricati. Per supportare una valutazione coerente degli LLM, introduciamo un'interfaccia plug-and-play basata sul Protocollo di Contesto del Modello (MCP) che consente agli LLM di connettersi senza soluzione di continuità con i giochi e manipolare i moduli agentici. Inoltre, proponiamo un dataset di fine-tuning, composto da traiettorie di gameplay degli LLM attraverso diversi generi di giochi. Orak offre un framework di valutazione completo, che include classifiche generali dei punteggi di gioco, arene di battaglia per LLM e analisi approfondite dello stato di input visivo, delle strategie agentiche e degli effetti di fine-tuning, stabilendo una base per la costruzione di agenti di gioco generici. Il codice è disponibile all'indirizzo https://github.com/krafton-ai/Orak.
English
Large Language Model (LLM) agents are reshaping the game industry, particularly with more intelligent and human-preferable game characters. However, existing game benchmarks fall short of practical needs: they lack evaluations of diverse LLM capabilities across various game genres, studies of agentic modules crucial for complex gameplay, and fine-tuning datasets for aligning pre-trained LLMs into gaming agents. To fill these gaps, we present \benchname{}, a foundational benchmark designed to train and evaluate LLM agents across diverse real-world video games. Unlike existing benchmarks, Orak includes 12 popular video games spanning all major genres, enabling comprehensive studies of LLM capabilities and agentic modules essential for intricate game scenarios. To support consistent evaluation of LLMs, we introduce a plug-and-play interface based on Model Context Protocol (MCP) that enables LLMs to seamlessly connect with games and manipulate agentic modules. Additionally, we propose a fine-tuning dataset, consisting of LLM gameplay trajectories across diverse game genres. Orak offers a comprehensive evaluation framework, encompassing general game score leaderboards, LLM battle arenas, and in-depth analyses of visual input state, agentic strategies, and fine-tuning effects, establishing a foundation towards building generic gaming agents. Code is available at https://github.com/krafton-ai/Orak.
PDF92June 5, 2025