Game-TARS: Modelos Fundacionales Preentrenados para Agentes de Juego Multimodales Generalistas y Escalables

Resumen

Presentamos Game-TARS, un agente de juego generalista entrenado con un espacio de acción unificado y escalable anclado a entradas nativas de teclado y ratón alineadas con el humano. A diferencia de los enfoques basados en API o GUI, este paradigma permite el pre-entrenamiento continuo a gran escala en dominios heterogéneos, incluyendo sistemas operativos, web y juegos de simulación. Game-TARS fue pre-entrenado con más de 500.000 millones de tokens que incluyen trayectorias diversas y datos multimodales. Las técnicas clave incluyen una pérdida continua decreciente para reducir la confusión causal y una eficiente estrategia de Pensamiento Escaso que equilibra la profundidad del razonamiento y el coste de inferencia. Los experimentos muestran que Game-TARS logra aproximadamente el doble de la tasa de éxito del modelo estado del arte anterior en tasks de Minecraft de mundo abierto, se acerca a la generalidad de humanos novatos en juegos web 3D no vistos, y supera a GPT-5, Gemini-2.5-Pro y Claude-4-Sonnet en benchmarks de FPS. Los resultados de escalado en tiempo de entrenamiento y prueba confirman que el espacio de acción unificado sostiene mejoras cuando se escala a datos multijuego y multimodales. Nuestros resultados demuestran que las representaciones de acción simples y escalables, combinadas con un pre-entrenamiento a gran escala, ofrecen un camino prometedor hacia agentes generalistas con amplias capacidades de uso informático.

English

We present Game-TARS, a generalist game agent trained with a unified, scalable action space anchored to human-aligned native keyboard-mouse inputs. Unlike API- or GUI-based approaches, this paradigm enables large-scale continual pre-training across heterogeneous domains, including OS, web, and simulation games. Game-TARS is pre-trained on over 500B tokens with diverse trajectories and multimodal data. Key techniques include a decaying continual loss to reduce causal confusion and an efficient Sparse-Thinking strategy that balances reasoning depth and inference cost. Experiments show that Game-TARS achieves about 2 times the success rate over the previous sota model on open-world Minecraft tasks, is close to the generality of fresh humans in unseen web 3d games, and outperforms GPT-5, Gemini-2.5-Pro, and Claude-4-Sonnet in FPS benchmarks. Scaling results on training-time and test-time confirm that the unified action space sustains improvements when scaled to cross-game and multimodal data. Our results demonstrate that simple, scalable action representations combined with large-scale pre-training provide a promising path toward generalist agents with broad computer-use abilities.

Game-TARS: Modelos Fundacionales Preentrenados para Agentes de Juego Multimodales Generalistas y Escalables

Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents

Resumen

Support