Game-TARS: 확장 가능한 범용 멀티모달 게임 에이전트를 위한 사전 학습된 파운데이션 모델
Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents
October 27, 2025
저자: Zihao Wang, Xujing Li, Yining Ye, Junjie Fang, Haoming Wang, Longxiang Liu, Shihao Liang, Junting Lu, Zhiyong Wu, Jiazhan Feng, Wanjun Zhong, Zili Li, Yu Wang, Yu Miao, Bo Zhou, Yuanfan Li, Hao Wang, Zhongkai Zhao, Faming Wu, Zhengxuan Jiang, Weihao Tan, Heyuan Yao, Shi Yan, Xiangyang Li, Yitao Liang, Yujia Qin, Guang Shi
cs.AI
초록
본 논문에서는 인간의 키보드-마우스 입력 체계에 기반한 통합적이고 확장 가능한 액션 공간을 통해 학습된 일반형 게임 에이전트 Game-TARS를 소개한다. API나 GUI 기반 접근법과 달리, 이 패러다임은 OS, 웹, 시뮬레이션 게임 등 이질적인 영역에 걸친 대규모 지속 사전 학습을 가능하게 한다. Game-TARS는 다양한 트랙토리와 멀티모달 데이터로 구성된 500B 이상의 토큰으로 사전 학습되었다. 핵심 기술로는 인과적 혼란을 줄이기 위한 감쇠 지속 학습 손실과, 추론 깊이와 비용 간 균형을 맞추는 효율적 Sparse-Thinking 전략이 포함된다. 실험 결과, Game-TARS는 오픈 월드 Minecraft 과제에서 기존 SOTA 모델 대비 약 2배의 성공률을 달성했으며, 처음 접하는 웹 3D 게임에서는 신규 인간 사용자의 일반성에 근접했고, FPS 벤치마크에서 GPT-5, Gemini-2.5-Pro, Claude-4-Sonnet을 능가했다. 학습 및 추론 시간에 대한 확장성 실험은 이 통합 액션 공간이 크로스 게임 및 멀티모달 데이터로 확장될 때도 성능 향상을 지속함을 입증한다. 본 연구 결과는 단순하고 확장 가능한 액션 표현과 대규모 사전 학습의 결합이 광범위한 컴퓨터 사용 능력을 지닌 일반형 에이전트 개발의 유망한 방향임을 보여준다.
English
We present Game-TARS, a generalist game agent trained with a unified,
scalable action space anchored to human-aligned native keyboard-mouse inputs.
Unlike API- or GUI-based approaches, this paradigm enables large-scale
continual pre-training across heterogeneous domains, including OS, web, and
simulation games. Game-TARS is pre-trained on over 500B tokens with diverse
trajectories and multimodal data. Key techniques include a decaying continual
loss to reduce causal confusion and an efficient Sparse-Thinking strategy that
balances reasoning depth and inference cost. Experiments show that Game-TARS
achieves about 2 times the success rate over the previous sota model on
open-world Minecraft tasks, is close to the generality of fresh humans in
unseen web 3d games, and outperforms GPT-5, Gemini-2.5-Pro, and Claude-4-Sonnet
in FPS benchmarks. Scaling results on training-time and test-time confirm that
the unified action space sustains improvements when scaled to cross-game and
multimodal data. Our results demonstrate that simple, scalable action
representations combined with large-scale pre-training provide a promising path
toward generalist agents with broad computer-use abilities.