lmgame-Bench: Wie gut sind LLMs im Spielen von Spielen?
lmgame-Bench: How Good are LLMs at Playing Games?
May 21, 2025
Autoren: Lanxiang Hu, Mingjia Huo, Yuxuan Zhang, Haoyang Yu, Eric P. Xing, Ion Stoica, Tajana Rosing, Haojian Jin, Hao Zhang
cs.AI
Zusammenfassung
Das Spielen von Videospielen erfordert Wahrnehmung, Gedächtnis und Planung – genau die Fähigkeiten, die moderne Large Language Model (LLM)-Agenten beherrschen sollen. Wir untersuchen die zentralen Herausforderungen bei der Verwendung beliebter Videospiele zur Bewertung moderner LLMs und stellen fest, dass das direkte Einbinden von LLMs in Spiele keine effektive Evaluierung ermöglicht, und zwar aus drei Gründen: brüchige visuelle Wahrnehmung, Prompt-Sensitivität und potenzielle Datenkontamination. Wir stellen lmgame-Bench vor, um Spiele in zuverlässige Evaluierungen zu verwandeln. lmgame-Bench umfasst eine Sammlung von Plattform-, Puzzle- und narrativen Spielen, die über eine einheitliche Gym-style API bereitgestellt werden und mit leichtgewichtigen Wahrnehmungs- und Gedächtnisstrukturen kombiniert sind. Es wurde entwickelt, um Prompt-Varianz zu stabilisieren und Kontamination zu entfernen. Anhand von 13 führenden Modellen zeigen wir, dass lmgame-Bench herausfordernd ist, aber dennoch eine gute Unterscheidung zwischen den Modellen ermöglicht. Korrelationsanalysen zeigen, dass jedes Spiel eine einzigartige Kombination von Fähigkeiten untersucht, die oft isoliert an anderer Stelle getestet werden. Interessanterweise überträgt sich das Durchführen von Reinforcement Learning auf einem einzelnen Spiel aus lmgame-Bench sowohl auf ungesehene Spiele als auch auf externe Planungsaufgaben. Unser Evaluierungscode ist verfügbar unter https://github.com/lmgame-org/GamingAgent/lmgame-bench.
English
Playing video games requires perception, memory, and planning, exactly the
faculties modern large language model (LLM) agents are expected to master. We
study the major challenges in using popular video games to evaluate modern LLMs
and find that directly dropping LLMs into games cannot make an effective
evaluation, for three reasons -- brittle vision perception, prompt sensitivity,
and potential data contamination. We introduce lmgame-Bench to turn games into
reliable evaluations. lmgame-Bench features a suite of platformer, puzzle, and
narrative games delivered through a unified Gym-style API and paired with
lightweight perception and memory scaffolds, and is designed to stabilize
prompt variance and remove contamination. Across 13 leading models, we show
lmgame-Bench is challenging while still separating models well. Correlation
analysis shows that every game probes a unique blend of capabilities often
tested in isolation elsewhere. More interestingly, performing reinforcement
learning on a single game from lmgame-Bench transfers both to unseen games and
to external planning tasks. Our evaluation code is available at
https://github.com/lmgame-org/GamingAgent/lmgame-bench.Summary
AI-Generated Summary