ChatPaper.aiChatPaper

Game-TARS: Modelos de Fundação Pré-treinados para Agentes de Jogo Multimodais Generalistas Escaláveis

Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents

October 27, 2025
Autores: Zihao Wang, Xujing Li, Yining Ye, Junjie Fang, Haoming Wang, Longxiang Liu, Shihao Liang, Junting Lu, Zhiyong Wu, Jiazhan Feng, Wanjun Zhong, Zili Li, Yu Wang, Yu Miao, Bo Zhou, Yuanfan Li, Hao Wang, Zhongkai Zhao, Faming Wu, Zhengxuan Jiang, Weihao Tan, Heyuan Yao, Shi Yan, Xiangyang Li, Yitao Liang, Yujia Qin, Guang Shi
cs.AI

Resumo

Apresentamos o Game-TARS, um agente de jogos generalista treinado com um espaço de ação unificado e escalável ancorado em entradas nativas de teclado e mouse alinhadas com o uso humano. Diferente de abordagens baseadas em API ou GUI, este paradigma permite o pré-treinamento contínuo em larga escala através de domínios heterogêneos, incluindo sistemas operacionais, web e jogos de simulação. O Game-TARS foi pré-treinado em mais de 500 bilhões de *tokens* com trajectórias diversificadas e dados multimodais. As técnicas-chave incluem uma perda contínua decrescente para reduzir a confusão causal e uma eficiente estratégia de *Pensamento Esparsificado* que equilibra a profundidade do raciocínio com o custo de inferência. Experimentos mostram que o Game-TARS atinge cerca de 2 vezes a taxa de sucesso do modelo estado da arte anterior em tarefas de mundo aberto no Minecraft, aproxima-se da generalidade de humanos novatos em jogos web 3D não vistos, e supera o GPT-5, o Gemini-2.5-Pro e o Claude-4-Sonnet em *benchmarks* de FPS. Resultados de escalabilidade no tempo de treinamento e de teste confirmam que o espaço de ação unificado sustenta melhorias quando escalado para dados entre jogos e multimodais. Nossos resultados demonstram que representações de ação simples e escaláveis, combinadas com pré-treinamento em larga escala, oferecem um caminho promissor para agentes generalistas com amplas habilidades de uso de computador.
English
We present Game-TARS, a generalist game agent trained with a unified, scalable action space anchored to human-aligned native keyboard-mouse inputs. Unlike API- or GUI-based approaches, this paradigm enables large-scale continual pre-training across heterogeneous domains, including OS, web, and simulation games. Game-TARS is pre-trained on over 500B tokens with diverse trajectories and multimodal data. Key techniques include a decaying continual loss to reduce causal confusion and an efficient Sparse-Thinking strategy that balances reasoning depth and inference cost. Experiments show that Game-TARS achieves about 2 times the success rate over the previous sota model on open-world Minecraft tasks, is close to the generality of fresh humans in unseen web 3d games, and outperforms GPT-5, Gemini-2.5-Pro, and Claude-4-Sonnet in FPS benchmarks. Scaling results on training-time and test-time confirm that the unified action space sustains improvements when scaled to cross-game and multimodal data. Our results demonstrate that simple, scalable action representations combined with large-scale pre-training provide a promising path toward generalist agents with broad computer-use abilities.
PDF5410February 7, 2026