ChatPaper.aiChatPaper

Orak: Un punto de referencia fundamental para entrenar y evaluar agentes de LLM en videojuegos diversos

Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games

June 4, 2025
Autores: Dongmin Park, Minkyu Kim, Beongjun Choi, Junhyuck Kim, Keon Lee, Jonghyun Lee, Inkyu Park, Byeong-Uk Lee, Jaeyoung Hwang, Jaewoo Ahn, Ameya S. Mahabaleshwarkar, Bilal Kartal, Pritam Biswas, Yoshi Suhara, Kangwook Lee, Jaewoong Cho
cs.AI

Resumen

Los agentes de Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) están transformando la industria de los videojuegos, especialmente con personajes más inteligentes y preferibles para los humanos. Sin embargo, los puntos de referencia existentes para juegos no satisfacen las necesidades prácticas: carecen de evaluaciones de las diversas capacidades de los LLM en distintos géneros de juegos, estudios de módulos agentes cruciales para jugabilidad compleja y conjuntos de datos de ajuste fino para alinear LLM preentrenados en agentes de juegos. Para llenar estos vacíos, presentamos \benchname{}, un punto de referencia fundamental diseñado para entrenar y evaluar agentes LLM en diversos videojuegos del mundo real. A diferencia de los puntos de referencia existentes, Orak incluye 12 videojuegos populares que abarcan todos los géneros principales, permitiendo estudios exhaustivos de las capacidades de los LLM y los módulos agentes esenciales para escenarios de juego intrincados. Para apoyar una evaluación consistente de los LLM, introducimos una interfaz plug-and-play basada en el Protocolo de Contexto del Modelo (MCP, por sus siglas en inglés) que permite a los LLM conectarse sin problemas con los juegos y manipular módulos agentes. Además, proponemos un conjunto de datos de ajuste fino, que consiste en trayectorias de juego de LLM en diversos géneros de juegos. Orak ofrece un marco de evaluación integral, que incluye tablas de clasificación de puntuación general de juegos, arenas de batalla de LLM y análisis en profundidad del estado de entrada visual, estrategias agentes y efectos de ajuste fino, estableciendo una base hacia la construcción de agentes de juegos genéricos. El código está disponible en https://github.com/krafton-ai/Orak.
English
Large Language Model (LLM) agents are reshaping the game industry, particularly with more intelligent and human-preferable game characters. However, existing game benchmarks fall short of practical needs: they lack evaluations of diverse LLM capabilities across various game genres, studies of agentic modules crucial for complex gameplay, and fine-tuning datasets for aligning pre-trained LLMs into gaming agents. To fill these gaps, we present \benchname{}, a foundational benchmark designed to train and evaluate LLM agents across diverse real-world video games. Unlike existing benchmarks, Orak includes 12 popular video games spanning all major genres, enabling comprehensive studies of LLM capabilities and agentic modules essential for intricate game scenarios. To support consistent evaluation of LLMs, we introduce a plug-and-play interface based on Model Context Protocol (MCP) that enables LLMs to seamlessly connect with games and manipulate agentic modules. Additionally, we propose a fine-tuning dataset, consisting of LLM gameplay trajectories across diverse game genres. Orak offers a comprehensive evaluation framework, encompassing general game score leaderboards, LLM battle arenas, and in-depth analyses of visual input state, agentic strategies, and fine-tuning effects, establishing a foundation towards building generic gaming agents. Code is available at https://github.com/krafton-ai/Orak.
PDF92June 5, 2025