ChatPaper.aiChatPaper

Game-TARS: Предобученные базовые модели для масштабируемых универсальных мультимодальных игровых агентов

Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents

October 27, 2025
Авторы: Zihao Wang, Xujing Li, Yining Ye, Junjie Fang, Haoming Wang, Longxiang Liu, Shihao Liang, Junting Lu, Zhiyong Wu, Jiazhan Feng, Wanjun Zhong, Zili Li, Yu Wang, Yu Miao, Bo Zhou, Yuanfan Li, Hao Wang, Zhongkai Zhao, Faming Wu, Zhengxuan Jiang, Weihao Tan, Heyuan Yao, Shi Yan, Xiangyang Li, Yitao Liang, Yujia Qin, Guang Shi
cs.AI

Аннотация

Мы представляем Game-TARS — универсального игрового агента, обученного с использованием единого масштабируемого пространства действий, основанного на человеко-ориентированных нативных вводах с клавиатуры и мыши. В отличие от подходов на основе API или графического интерфейса, данная парадигма позволяет осуществлять масштабируемое непрерывное предварительное обучение в гетерогенных областях, включая операционные системы, веб-среду и симуляционные игры. Game-TARS предварительно обучен на более чем 500 миллиардах токенов, содержащих разнообразные траектории и мультимодальные данные. Ключевые методы включают затухающую непрерывную функцию потерь для снижения причинно-следственной путаницы и эффективную стратегию «Разреженного Мышления», которая балансирует глубину рассуждений и стоимость вывода. Эксперименты показывают, что Game-TARS демонстрирует примерно двукратное превышение уровня успешности по сравнению с предыдущей моделью-лидером в задачах с открытым миром Minecraft, близок к обобщающей способности новичков-людей в незнакомых 3D-веб-играх и превосходит GPT-5, Gemini-2.5-Pro и Claude-4-Sonnet в тестах для шутеров от первого лица. Результаты масштабирования на этапах обучения и тестирования подтверждают, что единое пространство действий сохраняет улучшения при масштабировании на кросс-игровые и мультимодальные данные. Наши результаты демонстрируют, что простые, масштабируемые представления действий в сочетании с крупномасштабным предварительным обучением открывают перспективный путь к созданию универсальных агентов с широкими способностями к работе с компьютером.
English
We present Game-TARS, a generalist game agent trained with a unified, scalable action space anchored to human-aligned native keyboard-mouse inputs. Unlike API- or GUI-based approaches, this paradigm enables large-scale continual pre-training across heterogeneous domains, including OS, web, and simulation games. Game-TARS is pre-trained on over 500B tokens with diverse trajectories and multimodal data. Key techniques include a decaying continual loss to reduce causal confusion and an efficient Sparse-Thinking strategy that balances reasoning depth and inference cost. Experiments show that Game-TARS achieves about 2 times the success rate over the previous sota model on open-world Minecraft tasks, is close to the generality of fresh humans in unseen web 3d games, and outperforms GPT-5, Gemini-2.5-Pro, and Claude-4-Sonnet in FPS benchmarks. Scaling results on training-time and test-time confirm that the unified action space sustains improvements when scaled to cross-game and multimodal data. Our results demonstrate that simple, scalable action representations combined with large-scale pre-training provide a promising path toward generalist agents with broad computer-use abilities.
PDF519December 1, 2025