lmgame-Bench : Quelle est la performance des LLM dans les jeux ?

papers.abstract

Jouer à des jeux vidéo nécessite perception, mémoire et planification, exactement les facultés que les agents modernes de grands modèles de langage (LLM) sont censés maîtriser. Nous étudions les principaux défis liés à l'utilisation de jeux vidéo populaires pour évaluer les LLM modernes et constatons que l'intégration directe des LLM dans les jeux ne permet pas une évaluation efficace, pour trois raisons : une perception visuelle fragile, une sensibilité aux prompts et une potentielle contamination des données. Nous introduisons lmgame-Bench pour transformer les jeux en évaluations fiables. lmgame-Bench propose une suite de jeux de plateforme, de réflexion et narratifs, livrés via une API unifiée de style Gym et accompagnés de structures légères de perception et de mémoire, conçues pour stabiliser la variance des prompts et éliminer la contamination. Sur 13 modèles leaders, nous montrons que lmgame-Bench est exigeant tout en distinguant bien les modèles. Une analyse de corrélation révèle que chaque jeu explore une combinaison unique de capacités souvent testées isolément ailleurs. Plus intéressant encore, l'apprentissage par renforcement sur un seul jeu de lmgame-Bench se transfère à la fois à des jeux inédits et à des tâches de planification externes. Notre code d'évaluation est disponible à l'adresse https://github.com/lmgame-org/GamingAgent/lmgame-bench.

English

Playing video games requires perception, memory, and planning, exactly the faculties modern large language model (LLM) agents are expected to master. We study the major challenges in using popular video games to evaluate modern LLMs and find that directly dropping LLMs into games cannot make an effective evaluation, for three reasons -- brittle vision perception, prompt sensitivity, and potential data contamination. We introduce lmgame-Bench to turn games into reliable evaluations. lmgame-Bench features a suite of platformer, puzzle, and narrative games delivered through a unified Gym-style API and paired with lightweight perception and memory scaffolds, and is designed to stabilize prompt variance and remove contamination. Across 13 leading models, we show lmgame-Bench is challenging while still separating models well. Correlation analysis shows that every game probes a unique blend of capabilities often tested in isolation elsewhere. More interestingly, performing reinforcement learning on a single game from lmgame-Bench transfers both to unseen games and to external planning tasks. Our evaluation code is available at https://github.com/lmgame-org/GamingAgent/lmgame-bench.

lmgame-Bench : Quelle est la performance des LLM dans les jeux ?

lmgame-Bench: How Good are LLMs at Playing Games?

papers.abstract

Support