Game-TARS : Modèles de fondation pré-entraînés pour des agents de jeu multimodaux généralistes et évolutifs
Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents
October 27, 2025
papers.authors: Zihao Wang, Xujing Li, Yining Ye, Junjie Fang, Haoming Wang, Longxiang Liu, Shihao Liang, Junting Lu, Zhiyong Wu, Jiazhan Feng, Wanjun Zhong, Zili Li, Yu Wang, Yu Miao, Bo Zhou, Yuanfan Li, Hao Wang, Zhongkai Zhao, Faming Wu, Zhengxuan Jiang, Weihao Tan, Heyuan Yao, Shi Yan, Xiangyang Li, Yitao Liang, Yujia Qin, Guang Shi
cs.AI
papers.abstract
Nous présentons Game-TARS, un agent de jeu généraliste entraîné avec un espace d'action unifié et évolutif ancré sur des entrées clavier-souris natives alignées sur l'humain. Contrairement aux approches basées sur des API ou des interfaces graphiques, ce paradigme permet un pré-entraînement continu à grande échelle sur des domaines hétérogènes, incluant les systèmes d'exploitation, le web et les jeux de simulation. Game-TARS a été pré-entraîné sur plus de 500 milliards de tokens avec des trajectoires diverses et des données multimodales. Les techniques clés incluent une perte continue décroissante pour réduire la confusion causale et une stratégie efficace de Pensée Sparse qui équilibre la profondeur de raisonnement et le coût d'inférence. Les expériences montrent que Game-TARS atteint environ deux fois le taux de succès du modèle état de l'art précédent sur les tâches Minecraft en monde ouvert, se rapproche de la généralité des humains novices dans des jeux web 3D non vus, et surpasse GPT-5, Gemini-2.5-Pro et Claude-4-Sonnet dans les benchmarks FPS. Les résultats de mise à l'échelle en temps d'entraînement et en temps de test confirment que l'espace d'action unifié maintient les améliorations lorsqu'il est mis à l'échelle avec des données cross-jeux et multimodales. Nos résultats démontrent que des représentations d'action simples et évolutives, combinées à un pré-entraînement à grande échelle, offrent une voie prometteuse vers des agents généralistes dotés de larges capacités d'utilisation informatique.
English
We present Game-TARS, a generalist game agent trained with a unified,
scalable action space anchored to human-aligned native keyboard-mouse inputs.
Unlike API- or GUI-based approaches, this paradigm enables large-scale
continual pre-training across heterogeneous domains, including OS, web, and
simulation games. Game-TARS is pre-trained on over 500B tokens with diverse
trajectories and multimodal data. Key techniques include a decaying continual
loss to reduce causal confusion and an efficient Sparse-Thinking strategy that
balances reasoning depth and inference cost. Experiments show that Game-TARS
achieves about 2 times the success rate over the previous sota model on
open-world Minecraft tasks, is close to the generality of fresh humans in
unseen web 3d games, and outperforms GPT-5, Gemini-2.5-Pro, and Claude-4-Sonnet
in FPS benchmarks. Scaling results on training-time and test-time confirm that
the unified action space sustains improvements when scaled to cross-game and
multimodal data. Our results demonstrate that simple, scalable action
representations combined with large-scale pre-training provide a promising path
toward generalist agents with broad computer-use abilities.