TextQuests: Wie gut sind LLMs bei textbasierten Videospielen?
TextQuests: How Good are LLMs at Text-Based Video Games?
July 31, 2025
papers.authors: Long Phan, Mantas Mazeika, Andy Zou, Dan Hendrycks
cs.AI
papers.abstract
Die Bewertung von KI-Agenten in komplexen, interaktiven Umgebungen, die reale Herausforderungen widerspiegeln, ist entscheidend, um deren praktische Fähigkeiten zu verstehen. Während bestehende Benchmarks für Agenten effektiv Fähigkeiten wie Werkzeugnutzung oder Leistung bei strukturierten Aufgaben bewerten, erfassen sie oft nicht vollständig die Fähigkeit eines Agenten, in explorativen Umgebungen autonom zu agieren, die anhaltendes, selbstgesteuertes Denken über einen langen und wachsenden Kontext erfordern. Um die Entwicklung von Agenten zu fördern, die zu robusterem intrinsischem Denken über lange Zeiträume fähig sind, stellen wir TextQuests vor, einen Benchmark, der auf der Infocom-Suite von interaktiven Fiction-Spielen basiert. Diese textbasierten Abenteuer, die menschliche Spieler über 30 Stunden in Anspruch nehmen und Hunderte von präzisen Aktionen zur Lösung erfordern, dienen als effektiver Stellvertreter für die Bewertung von KI-Agenten bei fokussierten, zustandsbehafteten Aufgaben. Der Benchmark ist speziell darauf ausgelegt, die Fähigkeit eines LLM-Agenten zur eigenständigen Problemlösung zu bewerten, indem die Nutzung externer Werkzeuge ausgeschlossen wird, wodurch die intrinsischen Fähigkeiten zum langfristigen Kontextverständnis in einer explorativen Umgebung betont werden, die durch die Notwendigkeit von Versuch-und-Irrtum-Lernen und anhaltender Problemlösung innerhalb einer einzigen interaktiven Sitzung gekennzeichnet ist. Wir veröffentlichen TextQuests unter https://textquests.ai.
English
Evaluating AI agents within complex, interactive environments that mirror
real-world challenges is critical for understanding their practical
capabilities. While existing agent benchmarks effectively assess skills like
tool use or performance on structured tasks, they often do not fully capture an
agent's ability to operate autonomously in exploratory environments that demand
sustained, self-directed reasoning over a long and growing context. To spur the
development of agents capable of more robust intrinsic reasoning over long
horizons, we introduce TextQuests, a benchmark based on the Infocom suite of
interactive fiction games. These text-based adventures, which can take human
players over 30 hours and require hundreds of precise actions to solve, serve
as an effective proxy for evaluating AI agents on focused, stateful tasks. The
benchmark is specifically designed to assess an LLM agent's capacity for
self-contained problem-solving by precluding the use of external tools, thereby
focusing on intrinsic long-context reasoning capabilities in an exploratory
environment characterized by the need for trial-and-error learning and
sustained problem-solving within a single interactive session. We release
TextQuests at https://textquests.ai.