Game-TARS: Modelli Fondamentali Pre-addestrati per Agenti di Gioco Multimodali Generalisti Scalabili

Abstract

Presentiamo Game-TARS, un agente di gioco generalista addestrato con uno spazio d'azione unificato e scalabile ancorato agli input nativi tastiera-mouse allineati all'uso umano. A differenza degli approcci basati su API o GUI, questo paradigma consente un pre-addestramento continuo su larga scala attraverso domini eterogenei, inclusi sistemi operativi, web e giochi in simulazione. Game-TARS è stato pre-addestrato su oltre 500B di token con traiettorie diversificate e dati multimodali. Le tecniche chiave includono una perdita continua decadente per ridurre la confusione causale e una efficiente strategia di "Pensiero Sparso" che bilancia la profondità di ragionamento e il costo inferenziale. Gli esperimenti mostrano che Game-TARS raggiunge circa il doppio del tasso di successo rispetto al precedente modello state-of-the-art in compiti open-world su Minecraft, si avvicina alla generalità di esseri umani non esperti in giochi 3D web non visti, e supera GPT-5, Gemini-2.5-Pro e Claude-4-Sonnet in benchmark FPS. I risultati di scalabilità sul tempo di addestramento e di test confermano che lo spazio d'azione unificato sostiene miglioramenti quando scalato su dati cross-game e multimodali. I nostri risultati dimostrano che rappresentazioni d'azione semplici e scalabili, combinate con un pre-addestramento su larga scala, forniscono un percorso promettente verso agenti generalisti con ampie capacità di utilizzo del computer.

English

We present Game-TARS, a generalist game agent trained with a unified, scalable action space anchored to human-aligned native keyboard-mouse inputs. Unlike API- or GUI-based approaches, this paradigm enables large-scale continual pre-training across heterogeneous domains, including OS, web, and simulation games. Game-TARS is pre-trained on over 500B tokens with diverse trajectories and multimodal data. Key techniques include a decaying continual loss to reduce causal confusion and an efficient Sparse-Thinking strategy that balances reasoning depth and inference cost. Experiments show that Game-TARS achieves about 2 times the success rate over the previous sota model on open-world Minecraft tasks, is close to the generality of fresh humans in unseen web 3d games, and outperforms GPT-5, Gemini-2.5-Pro, and Claude-4-Sonnet in FPS benchmarks. Scaling results on training-time and test-time confirm that the unified action space sustains improvements when scaled to cross-game and multimodal data. Our results demonstrate that simple, scalable action representations combined with large-scale pre-training provide a promising path toward generalist agents with broad computer-use abilities.

Game-TARS: Modelli Fondamentali Pre-addestrati per Agenti di Gioco Multimodali Generalisti Scalabili

Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents

Abstract

Support