Game-TARS: Vorab trainierte Basismodelle für skalierbare generalistische multimodale Spielagenten
Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents
October 27, 2025
papers.authors: Zihao Wang, Xujing Li, Yining Ye, Junjie Fang, Haoming Wang, Longxiang Liu, Shihao Liang, Junting Lu, Zhiyong Wu, Jiazhan Feng, Wanjun Zhong, Zili Li, Yu Wang, Yu Miao, Bo Zhou, Yuanfan Li, Hao Wang, Zhongkai Zhao, Faming Wu, Zhengxuan Jiang, Weihao Tan, Heyuan Yao, Shi Yan, Xiangyang Li, Yitao Liang, Yujia Qin, Guang Shi
cs.AI
papers.abstract
Wir stellen Game-TARS vor, einen generalistischen Spiel-Agenten, der mit einem einheitlichen, skalierbaren Aktionsraum trainiert wurde, der an menschenausgerichtete native Tastatur-Maus-Eingaben geknüpft ist. Im Gegensatz zu API- oder GUI-basierten Ansätzen ermöglicht dieses Paradigma ein kontinuierliches Pre-Training in großem Maßstab über heterogene Domänen hinweg, einschließlich Betriebssystemen, dem Web und Simulationsspielen. Game-TARS wurde mit über 500B Tokens auf vielfältigen Trajektorien und multimodalen Daten vorab trainiert. Zu den Schlüsseltechniken gehören ein abklingender kontinuierlicher Verlust zur Reduzierung kausaler Verwirrung und eine effiziente Sparse-Thinking-Strategie, die Abtiefe des Denkens und Inferenzkosten in Einklang bringt. Experimente zeigen, dass Game-TARS auf Open-World-Minecraft-Aufgaben eine ungefähr doppelt so hohe Erfolgsrate wie das vorherige State-of-the-Art-Modell erzielt, in ungesehenen Web-3D-Spielen nahe an die Allgemeingültigkeit von unerfahrenen Menschen heranreicht und in FPS-Benchmarks GPT-5, Gemini-2.5-Pro und Claude-4-Sonnet übertrifft. Skalierungsergebnisse zu Trainings- und Testzeit bestätigen, dass der einheitliche Aktionsraum Verbesserungen aufrechterhält, wenn er auf spielübergreifende und multimodale Daten skaliert wird. Unsere Ergebnisse demonstrieren, dass einfache, skalierbare Aktionsrepräsentationen in Kombination mit groß angelegtem Pre-Training einen vielversprechenden Weg zu generalistischen Agenten mit breiten Computeranwendungsfähigkeiten darstellen.
English
We present Game-TARS, a generalist game agent trained with a unified,
scalable action space anchored to human-aligned native keyboard-mouse inputs.
Unlike API- or GUI-based approaches, this paradigm enables large-scale
continual pre-training across heterogeneous domains, including OS, web, and
simulation games. Game-TARS is pre-trained on over 500B tokens with diverse
trajectories and multimodal data. Key techniques include a decaying continual
loss to reduce causal confusion and an efficient Sparse-Thinking strategy that
balances reasoning depth and inference cost. Experiments show that Game-TARS
achieves about 2 times the success rate over the previous sota model on
open-world Minecraft tasks, is close to the generality of fresh humans in
unseen web 3d games, and outperforms GPT-5, Gemini-2.5-Pro, and Claude-4-Sonnet
in FPS benchmarks. Scaling results on training-time and test-time confirm that
the unified action space sustains improvements when scaled to cross-game and
multimodal data. Our results demonstrate that simple, scalable action
representations combined with large-scale pre-training provide a promising path
toward generalist agents with broad computer-use abilities.