ChatPaper.aiChatPaper

Orak: Um Marco Fundamental para Treinar e Avaliar Agentes de LLM em Jogos de Vídeo Diversos

Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games

June 4, 2025
Autores: Dongmin Park, Minkyu Kim, Beongjun Choi, Junhyuck Kim, Keon Lee, Jonghyun Lee, Inkyu Park, Byeong-Uk Lee, Jaeyoung Hwang, Jaewoo Ahn, Ameya S. Mahabaleshwarkar, Bilal Kartal, Pritam Biswas, Yoshi Suhara, Kangwook Lee, Jaewoong Cho
cs.AI

Resumo

Agentes de Modelos de Linguagem de Grande Escala (LLM) estão transformando a indústria de jogos, especialmente com personagens de jogos mais inteligentes e preferíveis para humanos. No entanto, os benchmarks de jogos existentes não atendem às necessidades práticas: eles carecem de avaliações das diversas capacidades dos LLMs em vários gêneros de jogos, estudos de módulos agentes cruciais para jogabilidade complexa e conjuntos de dados de ajuste fino para alinhar LLMs pré-treinados em agentes de jogos. Para preencher essas lacunas, apresentamos \benchname{}, um benchmark fundamental projetado para treinar e avaliar agentes LLMs em diversos jogos de vídeo do mundo real. Diferente dos benchmarks existentes, Orak inclui 12 jogos de vídeo populares abrangendo todos os principais gêneros, permitindo estudos abrangentes das capacidades dos LLMs e dos módulos agentes essenciais para cenários de jogos intrincados. Para apoiar uma avaliação consistente dos LLMs, introduzimos uma interface plug-and-play baseada no Protocolo de Contexto de Modelo (MCP) que permite que os LLMs se conectem perfeitamente com os jogos e manipulem módulos agentes. Além disso, propomos um conjunto de dados de ajuste fino, composto por trajetórias de jogabilidade de LLMs em diversos gêneros de jogos. Orak oferece uma estrutura de avaliação abrangente, englobando tabelas de classificação gerais de pontuação de jogos, arenas de batalha de LLMs e análises aprofundadas do estado de entrada visual, estratégias agentes e efeitos de ajuste fino, estabelecendo uma base para a construção de agentes de jogos genéricos. O código está disponível em https://github.com/krafton-ai/Orak.
English
Large Language Model (LLM) agents are reshaping the game industry, particularly with more intelligent and human-preferable game characters. However, existing game benchmarks fall short of practical needs: they lack evaluations of diverse LLM capabilities across various game genres, studies of agentic modules crucial for complex gameplay, and fine-tuning datasets for aligning pre-trained LLMs into gaming agents. To fill these gaps, we present \benchname{}, a foundational benchmark designed to train and evaluate LLM agents across diverse real-world video games. Unlike existing benchmarks, Orak includes 12 popular video games spanning all major genres, enabling comprehensive studies of LLM capabilities and agentic modules essential for intricate game scenarios. To support consistent evaluation of LLMs, we introduce a plug-and-play interface based on Model Context Protocol (MCP) that enables LLMs to seamlessly connect with games and manipulate agentic modules. Additionally, we propose a fine-tuning dataset, consisting of LLM gameplay trajectories across diverse game genres. Orak offers a comprehensive evaluation framework, encompassing general game score leaderboards, LLM battle arenas, and in-depth analyses of visual input state, agentic strategies, and fine-tuning effects, establishing a foundation towards building generic gaming agents. Code is available at https://github.com/krafton-ai/Orak.
PDF92June 5, 2025