Game-TARS: Modelos de Fundação Pré-treinados para Agentes de Jogo Multimodais Generalistas Escaláveis

Resumo

Apresentamos o Game-TARS, um agente de jogos generalista treinado com um espaço de ação unificado e escalável ancorado em entradas nativas de teclado e mouse alinhadas com o uso humano. Diferente de abordagens baseadas em API ou GUI, este paradigma permite o pré-treinamento contínuo em larga escala através de domínios heterogêneos, incluindo sistemas operacionais, web e jogos de simulação. O Game-TARS foi pré-treinado em mais de 500 bilhões de *tokens* com trajectórias diversificadas e dados multimodais. As técnicas-chave incluem uma perda contínua decrescente para reduzir a confusão causal e uma eficiente estratégia de *Pensamento Esparsificado* que equilibra a profundidade do raciocínio com o custo de inferência. Experimentos mostram que o Game-TARS atinge cerca de 2 vezes a taxa de sucesso do modelo estado da arte anterior em tarefas de mundo aberto no Minecraft, aproxima-se da generalidade de humanos novatos em jogos web 3D não vistos, e supera o GPT-5, o Gemini-2.5-Pro e o Claude-4-Sonnet em *benchmarks* de FPS. Resultados de escalabilidade no tempo de treinamento e de teste confirmam que o espaço de ação unificado sustenta melhorias quando escalado para dados entre jogos e multimodais. Nossos resultados demonstram que representações de ação simples e escaláveis, combinadas com pré-treinamento em larga escala, oferecem um caminho promissor para agentes generalistas com amplas habilidades de uso de computador.

English

We present Game-TARS, a generalist game agent trained with a unified, scalable action space anchored to human-aligned native keyboard-mouse inputs. Unlike API- or GUI-based approaches, this paradigm enables large-scale continual pre-training across heterogeneous domains, including OS, web, and simulation games. Game-TARS is pre-trained on over 500B tokens with diverse trajectories and multimodal data. Key techniques include a decaying continual loss to reduce causal confusion and an efficient Sparse-Thinking strategy that balances reasoning depth and inference cost. Experiments show that Game-TARS achieves about 2 times the success rate over the previous sota model on open-world Minecraft tasks, is close to the generality of fresh humans in unseen web 3d games, and outperforms GPT-5, Gemini-2.5-Pro, and Claude-4-Sonnet in FPS benchmarks. Scaling results on training-time and test-time confirm that the unified action space sustains improvements when scaled to cross-game and multimodal data. Our results demonstrate that simple, scalable action representations combined with large-scale pre-training provide a promising path toward generalist agents with broad computer-use abilities.

Game-TARS: Modelos de Fundação Pré-treinados para Agentes de Jogo Multimodais Generalistas Escaláveis

Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents

Resumo

Support