Game-TARS: Предобученные базовые модели для масштабируемых универсальных мультимодальных игровых агентов

Аннотация

Мы представляем Game-TARS — универсального игрового агента, обученного с использованием единого масштабируемого пространства действий, основанного на человеко-ориентированных нативных вводах с клавиатуры и мыши. В отличие от подходов на основе API или графического интерфейса, данная парадигма позволяет осуществлять масштабируемое непрерывное предварительное обучение в гетерогенных областях, включая операционные системы, веб-среду и симуляционные игры. Game-TARS предварительно обучен на более чем 500 миллиардах токенов, содержащих разнообразные траектории и мультимодальные данные. Ключевые методы включают затухающую непрерывную функцию потерь для снижения причинно-следственной путаницы и эффективную стратегию «Разреженного Мышления», которая балансирует глубину рассуждений и стоимость вывода. Эксперименты показывают, что Game-TARS демонстрирует примерно двукратное превышение уровня успешности по сравнению с предыдущей моделью-лидером в задачах с открытым миром Minecraft, близок к обобщающей способности новичков-людей в незнакомых 3D-веб-играх и превосходит GPT-5, Gemini-2.5-Pro и Claude-4-Sonnet в тестах для шутеров от первого лица. Результаты масштабирования на этапах обучения и тестирования подтверждают, что единое пространство действий сохраняет улучшения при масштабировании на кросс-игровые и мультимодальные данные. Наши результаты демонстрируют, что простые, масштабируемые представления действий в сочетании с крупномасштабным предварительным обучением открывают перспективный путь к созданию универсальных агентов с широкими способностями к работе с компьютером.

English

We present Game-TARS, a generalist game agent trained with a unified, scalable action space anchored to human-aligned native keyboard-mouse inputs. Unlike API- or GUI-based approaches, this paradigm enables large-scale continual pre-training across heterogeneous domains, including OS, web, and simulation games. Game-TARS is pre-trained on over 500B tokens with diverse trajectories and multimodal data. Key techniques include a decaying continual loss to reduce causal confusion and an efficient Sparse-Thinking strategy that balances reasoning depth and inference cost. Experiments show that Game-TARS achieves about 2 times the success rate over the previous sota model on open-world Minecraft tasks, is close to the generality of fresh humans in unseen web 3d games, and outperforms GPT-5, Gemini-2.5-Pro, and Claude-4-Sonnet in FPS benchmarks. Scaling results on training-time and test-time confirm that the unified action space sustains improvements when scaled to cross-game and multimodal data. Our results demonstrate that simple, scalable action representations combined with large-scale pre-training provide a promising path toward generalist agents with broad computer-use abilities.

Game-TARS: Предобученные базовые модели для масштабируемых универсальных мультимодальных игровых агентов

Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents

Аннотация

Support