TextQuests : Quelle est la performance des modèles de langage dans les jeux vidéo textuels ?
TextQuests: How Good are LLMs at Text-Based Video Games?
July 31, 2025
papers.authors: Long Phan, Mantas Mazeika, Andy Zou, Dan Hendrycks
cs.AI
papers.abstract
L'évaluation des agents d'intelligence artificielle dans des environnements complexes et interactifs reflétant les défis du monde réel est essentielle pour comprendre leurs capacités pratiques. Bien que les benchmarks existants pour les agents évaluent efficacement des compétences telles que l'utilisation d'outils ou la performance sur des tâches structurées, ils ne capturent souvent pas pleinement la capacité d'un agent à opérer de manière autonome dans des environnements exploratoires qui exigent un raisonnement autodirigé et soutenu sur un contexte long et évolutif. Pour stimuler le développement d'agents capables d'un raisonnement intrinsèque plus robuste sur de longues périodes, nous présentons TextQuests, un benchmark basé sur la suite Infocom de jeux de fiction interactive. Ces aventures textuelles, qui peuvent prendre plus de 30 heures aux joueurs humains et nécessiter des centaines d'actions précises pour être résolues, servent de proxy efficace pour évaluer les agents d'IA sur des tâches ciblées et étatiques. Le benchmark est spécifiquement conçu pour évaluer la capacité d'un agent de modèle de langage (LLM) à résoudre des problèmes de manière autonome en excluant l'utilisation d'outils externes, se concentrant ainsi sur les capacités de raisonnement intrinsèque à long contexte dans un environnement exploratoire caractérisé par la nécessité d'un apprentissage par essais et erreurs et d'une résolution de problèmes soutenue au sein d'une seule session interactive. Nous mettons TextQuests à disposition sur https://textquests.ai.
English
Evaluating AI agents within complex, interactive environments that mirror
real-world challenges is critical for understanding their practical
capabilities. While existing agent benchmarks effectively assess skills like
tool use or performance on structured tasks, they often do not fully capture an
agent's ability to operate autonomously in exploratory environments that demand
sustained, self-directed reasoning over a long and growing context. To spur the
development of agents capable of more robust intrinsic reasoning over long
horizons, we introduce TextQuests, a benchmark based on the Infocom suite of
interactive fiction games. These text-based adventures, which can take human
players over 30 hours and require hundreds of precise actions to solve, serve
as an effective proxy for evaluating AI agents on focused, stateful tasks. The
benchmark is specifically designed to assess an LLM agent's capacity for
self-contained problem-solving by precluding the use of external tools, thereby
focusing on intrinsic long-context reasoning capabilities in an exploratory
environment characterized by the need for trial-and-error learning and
sustained problem-solving within a single interactive session. We release
TextQuests at https://textquests.ai.