lmgame-Bench: Wie gut sind LLMs im Spielen von Spielen?

papers.abstract

Das Spielen von Videospielen erfordert Wahrnehmung, Gedächtnis und Planung – genau die Fähigkeiten, die moderne Large Language Model (LLM)-Agenten beherrschen sollen. Wir untersuchen die zentralen Herausforderungen bei der Verwendung beliebter Videospiele zur Bewertung moderner LLMs und stellen fest, dass das direkte Einbinden von LLMs in Spiele keine effektive Evaluierung ermöglicht, und zwar aus drei Gründen: brüchige visuelle Wahrnehmung, Prompt-Sensitivität und potenzielle Datenkontamination. Wir stellen lmgame-Bench vor, um Spiele in zuverlässige Evaluierungen zu verwandeln. lmgame-Bench umfasst eine Sammlung von Plattform-, Puzzle- und narrativen Spielen, die über eine einheitliche Gym-style API bereitgestellt werden und mit leichtgewichtigen Wahrnehmungs- und Gedächtnisstrukturen kombiniert sind. Es wurde entwickelt, um Prompt-Varianz zu stabilisieren und Kontamination zu entfernen. Anhand von 13 führenden Modellen zeigen wir, dass lmgame-Bench herausfordernd ist, aber dennoch eine gute Unterscheidung zwischen den Modellen ermöglicht. Korrelationsanalysen zeigen, dass jedes Spiel eine einzigartige Kombination von Fähigkeiten untersucht, die oft isoliert an anderer Stelle getestet werden. Interessanterweise überträgt sich das Durchführen von Reinforcement Learning auf einem einzelnen Spiel aus lmgame-Bench sowohl auf ungesehene Spiele als auch auf externe Planungsaufgaben. Unser Evaluierungscode ist verfügbar unter https://github.com/lmgame-org/GamingAgent/lmgame-bench.

English

Playing video games requires perception, memory, and planning, exactly the faculties modern large language model (LLM) agents are expected to master. We study the major challenges in using popular video games to evaluate modern LLMs and find that directly dropping LLMs into games cannot make an effective evaluation, for three reasons -- brittle vision perception, prompt sensitivity, and potential data contamination. We introduce lmgame-Bench to turn games into reliable evaluations. lmgame-Bench features a suite of platformer, puzzle, and narrative games delivered through a unified Gym-style API and paired with lightweight perception and memory scaffolds, and is designed to stabilize prompt variance and remove contamination. Across 13 leading models, we show lmgame-Bench is challenging while still separating models well. Correlation analysis shows that every game probes a unique blend of capabilities often tested in isolation elsewhere. More interestingly, performing reinforcement learning on a single game from lmgame-Bench transfers both to unseen games and to external planning tasks. Our evaluation code is available at https://github.com/lmgame-org/GamingAgent/lmgame-bench.

lmgame-Bench: Wie gut sind LLMs im Spielen von Spielen?

lmgame-Bench: How Good are LLMs at Playing Games?

papers.abstract

Support