Orak: Базовый эталон для обучения и оценки агентов на основе больших языковых моделей в разнообразных видеоиграх

Аннотация

Крупные языковые модели (LLM) трансформируют игровую индустрию, особенно в плане создания более интеллектуальных и предпочтительных для человека игровых персонажей. Однако существующие игровые бенчмарки не соответствуют практическим потребностям: они не оценивают разнообразные возможности LLM в различных игровых жанрах, не изучают агентные модули, критически важные для сложного геймплея, и не предоставляют наборов данных для тонкой настройки предварительно обученных LLM в игровых агентов. Чтобы устранить эти пробелы, мы представляем \benchname{}, фундаментальный бенчмарк, разработанный для обучения и оценки LLM-агентов в разнообразных реальных видеоиграх. В отличие от существующих бенчмарков, Orak включает 12 популярных видеоигр, охватывающих все основные жанры, что позволяет проводить всесторонние исследования возможностей LLM и агентных модулей, необходимых для сложных игровых сценариев. Для обеспечения последовательной оценки LLM мы представляем plug-and-play интерфейс на основе Model Context Protocol (MCP), который позволяет LLM легко подключаться к играм и управлять агентными модулями. Кроме того, мы предлагаем набор данных для тонкой настройки, состоящий из траекторий игрового процесса LLM в различных игровых жанрах. Orak предлагает комплексную систему оценки, включающую таблицы лидеров по общему игровому счету, арены для сражений LLM и углубленный анализ визуального входного состояния, агентных стратегий и эффектов тонкой настройки, закладывая основу для создания универсальных игровых агентов. Код доступен по адресу https://github.com/krafton-ai/Orak.

English

Large Language Model (LLM) agents are reshaping the game industry, particularly with more intelligent and human-preferable game characters. However, existing game benchmarks fall short of practical needs: they lack evaluations of diverse LLM capabilities across various game genres, studies of agentic modules crucial for complex gameplay, and fine-tuning datasets for aligning pre-trained LLMs into gaming agents. To fill these gaps, we present \benchname{}, a foundational benchmark designed to train and evaluate LLM agents across diverse real-world video games. Unlike existing benchmarks, Orak includes 12 popular video games spanning all major genres, enabling comprehensive studies of LLM capabilities and agentic modules essential for intricate game scenarios. To support consistent evaluation of LLMs, we introduce a plug-and-play interface based on Model Context Protocol (MCP) that enables LLMs to seamlessly connect with games and manipulate agentic modules. Additionally, we propose a fine-tuning dataset, consisting of LLM gameplay trajectories across diverse game genres. Orak offers a comprehensive evaluation framework, encompassing general game score leaderboards, LLM battle arenas, and in-depth analyses of visual input state, agentic strategies, and fine-tuning effects, establishing a foundation towards building generic gaming agents. Code is available at https://github.com/krafton-ai/Orak.

Orak: Базовый эталон для обучения и оценки агентов на основе больших языковых моделей в разнообразных видеоиграх

Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games

Аннотация

Support