ChatPaper.aiChatPaper

Game-TARS: Modelos Fundacionales Preentrenados para Agentes de Juego Multimodales Generalistas y Escalables

Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents

October 27, 2025
Autores: Zihao Wang, Xujing Li, Yining Ye, Junjie Fang, Haoming Wang, Longxiang Liu, Shihao Liang, Junting Lu, Zhiyong Wu, Jiazhan Feng, Wanjun Zhong, Zili Li, Yu Wang, Yu Miao, Bo Zhou, Yuanfan Li, Hao Wang, Zhongkai Zhao, Faming Wu, Zhengxuan Jiang, Weihao Tan, Heyuan Yao, Shi Yan, Xiangyang Li, Yitao Liang, Yujia Qin, Guang Shi
cs.AI

Resumen

Presentamos Game-TARS, un agente de juego generalista entrenado con un espacio de acción unificado y escalable anclado a entradas nativas de teclado y ratón alineadas con el humano. A diferencia de los enfoques basados en API o GUI, este paradigma permite el pre-entrenamiento continuo a gran escala en dominios heterogéneos, incluyendo sistemas operativos, web y juegos de simulación. Game-TARS fue pre-entrenado con más de 500.000 millones de tokens que incluyen trayectorias diversas y datos multimodales. Las técnicas clave incluyen una pérdida continua decreciente para reducir la confusión causal y una eficiente estrategia de Pensamiento Escaso que equilibra la profundidad del razonamiento y el coste de inferencia. Los experimentos muestran que Game-TARS logra aproximadamente el doble de la tasa de éxito del modelo estado del arte anterior en tasks de Minecraft de mundo abierto, se acerca a la generalidad de humanos novatos en juegos web 3D no vistos, y supera a GPT-5, Gemini-2.5-Pro y Claude-4-Sonnet en benchmarks de FPS. Los resultados de escalado en tiempo de entrenamiento y prueba confirman que el espacio de acción unificado sostiene mejoras cuando se escala a datos multijuego y multimodales. Nuestros resultados demuestran que las representaciones de acción simples y escalables, combinadas con un pre-entrenamiento a gran escala, ofrecen un camino prometedor hacia agentes generalistas con amplias capacidades de uso informático.
English
We present Game-TARS, a generalist game agent trained with a unified, scalable action space anchored to human-aligned native keyboard-mouse inputs. Unlike API- or GUI-based approaches, this paradigm enables large-scale continual pre-training across heterogeneous domains, including OS, web, and simulation games. Game-TARS is pre-trained on over 500B tokens with diverse trajectories and multimodal data. Key techniques include a decaying continual loss to reduce causal confusion and an efficient Sparse-Thinking strategy that balances reasoning depth and inference cost. Experiments show that Game-TARS achieves about 2 times the success rate over the previous sota model on open-world Minecraft tasks, is close to the generality of fresh humans in unseen web 3d games, and outperforms GPT-5, Gemini-2.5-Pro, and Claude-4-Sonnet in FPS benchmarks. Scaling results on training-time and test-time confirm that the unified action space sustains improvements when scaled to cross-game and multimodal data. Our results demonstrate that simple, scalable action representations combined with large-scale pre-training provide a promising path toward generalist agents with broad computer-use abilities.
PDF519December 1, 2025