ChatPaper.aiChatPaper

Game-TARS: Modelli Fondamentali Pre-addestrati per Agenti di Gioco Multimodali Generalisti Scalabili

Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents

October 27, 2025
Autori: Zihao Wang, Xujing Li, Yining Ye, Junjie Fang, Haoming Wang, Longxiang Liu, Shihao Liang, Junting Lu, Zhiyong Wu, Jiazhan Feng, Wanjun Zhong, Zili Li, Yu Wang, Yu Miao, Bo Zhou, Yuanfan Li, Hao Wang, Zhongkai Zhao, Faming Wu, Zhengxuan Jiang, Weihao Tan, Heyuan Yao, Shi Yan, Xiangyang Li, Yitao Liang, Yujia Qin, Guang Shi
cs.AI

Abstract

Presentiamo Game-TARS, un agente di gioco generalista addestrato con uno spazio d'azione unificato e scalabile ancorato agli input nativi tastiera-mouse allineati all'uso umano. A differenza degli approcci basati su API o GUI, questo paradigma consente un pre-addestramento continuo su larga scala attraverso domini eterogenei, inclusi sistemi operativi, web e giochi in simulazione. Game-TARS è stato pre-addestrato su oltre 500B di token con traiettorie diversificate e dati multimodali. Le tecniche chiave includono una perdita continua decadente per ridurre la confusione causale e una efficiente strategia di "Pensiero Sparso" che bilancia la profondità di ragionamento e il costo inferenziale. Gli esperimenti mostrano che Game-TARS raggiunge circa il doppio del tasso di successo rispetto al precedente modello state-of-the-art in compiti open-world su Minecraft, si avvicina alla generalità di esseri umani non esperti in giochi 3D web non visti, e supera GPT-5, Gemini-2.5-Pro e Claude-4-Sonnet in benchmark FPS. I risultati di scalabilità sul tempo di addestramento e di test confermano che lo spazio d'azione unificato sostiene miglioramenti quando scalato su dati cross-game e multimodali. I nostri risultati dimostrano che rappresentazioni d'azione semplici e scalabili, combinate con un pre-addestramento su larga scala, forniscono un percorso promettente verso agenti generalisti con ampie capacità di utilizzo del computer.
English
We present Game-TARS, a generalist game agent trained with a unified, scalable action space anchored to human-aligned native keyboard-mouse inputs. Unlike API- or GUI-based approaches, this paradigm enables large-scale continual pre-training across heterogeneous domains, including OS, web, and simulation games. Game-TARS is pre-trained on over 500B tokens with diverse trajectories and multimodal data. Key techniques include a decaying continual loss to reduce causal confusion and an efficient Sparse-Thinking strategy that balances reasoning depth and inference cost. Experiments show that Game-TARS achieves about 2 times the success rate over the previous sota model on open-world Minecraft tasks, is close to the generality of fresh humans in unseen web 3d games, and outperforms GPT-5, Gemini-2.5-Pro, and Claude-4-Sonnet in FPS benchmarks. Scaling results on training-time and test-time confirm that the unified action space sustains improvements when scaled to cross-game and multimodal data. Our results demonstrate that simple, scalable action representations combined with large-scale pre-training provide a promising path toward generalist agents with broad computer-use abilities.
PDF519December 1, 2025