lmgame-Bench : Quelle est la performance des LLM dans les jeux ?
lmgame-Bench: How Good are LLMs at Playing Games?
May 21, 2025
Auteurs: Lanxiang Hu, Mingjia Huo, Yuxuan Zhang, Haoyang Yu, Eric P. Xing, Ion Stoica, Tajana Rosing, Haojian Jin, Hao Zhang
cs.AI
Résumé
Jouer à des jeux vidéo nécessite perception, mémoire et planification, exactement les facultés que les agents modernes de grands modèles de langage (LLM) sont censés maîtriser. Nous étudions les principaux défis liés à l'utilisation de jeux vidéo populaires pour évaluer les LLM modernes et constatons que l'intégration directe des LLM dans les jeux ne permet pas une évaluation efficace, pour trois raisons : une perception visuelle fragile, une sensibilité aux prompts et une potentielle contamination des données. Nous introduisons lmgame-Bench pour transformer les jeux en évaluations fiables. lmgame-Bench propose une suite de jeux de plateforme, de réflexion et narratifs, livrés via une API unifiée de style Gym et accompagnés de structures légères de perception et de mémoire, conçues pour stabiliser la variance des prompts et éliminer la contamination. Sur 13 modèles leaders, nous montrons que lmgame-Bench est exigeant tout en distinguant bien les modèles. Une analyse de corrélation révèle que chaque jeu explore une combinaison unique de capacités souvent testées isolément ailleurs. Plus intéressant encore, l'apprentissage par renforcement sur un seul jeu de lmgame-Bench se transfère à la fois à des jeux inédits et à des tâches de planification externes. Notre code d'évaluation est disponible à l'adresse https://github.com/lmgame-org/GamingAgent/lmgame-bench.
English
Playing video games requires perception, memory, and planning, exactly the
faculties modern large language model (LLM) agents are expected to master. We
study the major challenges in using popular video games to evaluate modern LLMs
and find that directly dropping LLMs into games cannot make an effective
evaluation, for three reasons -- brittle vision perception, prompt sensitivity,
and potential data contamination. We introduce lmgame-Bench to turn games into
reliable evaluations. lmgame-Bench features a suite of platformer, puzzle, and
narrative games delivered through a unified Gym-style API and paired with
lightweight perception and memory scaffolds, and is designed to stabilize
prompt variance and remove contamination. Across 13 leading models, we show
lmgame-Bench is challenging while still separating models well. Correlation
analysis shows that every game probes a unique blend of capabilities often
tested in isolation elsewhere. More interestingly, performing reinforcement
learning on a single game from lmgame-Bench transfers both to unseen games and
to external planning tasks. Our evaluation code is available at
https://github.com/lmgame-org/GamingAgent/lmgame-bench.Summary
AI-Generated Summary