TextQuests : Quelle est la performance des modèles de langage dans les jeux vidéo textuels ?

papers.abstract

L'évaluation des agents d'intelligence artificielle dans des environnements complexes et interactifs reflétant les défis du monde réel est essentielle pour comprendre leurs capacités pratiques. Bien que les benchmarks existants pour les agents évaluent efficacement des compétences telles que l'utilisation d'outils ou la performance sur des tâches structurées, ils ne capturent souvent pas pleinement la capacité d'un agent à opérer de manière autonome dans des environnements exploratoires qui exigent un raisonnement autodirigé et soutenu sur un contexte long et évolutif. Pour stimuler le développement d'agents capables d'un raisonnement intrinsèque plus robuste sur de longues périodes, nous présentons TextQuests, un benchmark basé sur la suite Infocom de jeux de fiction interactive. Ces aventures textuelles, qui peuvent prendre plus de 30 heures aux joueurs humains et nécessiter des centaines d'actions précises pour être résolues, servent de proxy efficace pour évaluer les agents d'IA sur des tâches ciblées et étatiques. Le benchmark est spécifiquement conçu pour évaluer la capacité d'un agent de modèle de langage (LLM) à résoudre des problèmes de manière autonome en excluant l'utilisation d'outils externes, se concentrant ainsi sur les capacités de raisonnement intrinsèque à long contexte dans un environnement exploratoire caractérisé par la nécessité d'un apprentissage par essais et erreurs et d'une résolution de problèmes soutenue au sein d'une seule session interactive. Nous mettons TextQuests à disposition sur https://textquests.ai.

English

Evaluating AI agents within complex, interactive environments that mirror real-world challenges is critical for understanding their practical capabilities. While existing agent benchmarks effectively assess skills like tool use or performance on structured tasks, they often do not fully capture an agent's ability to operate autonomously in exploratory environments that demand sustained, self-directed reasoning over a long and growing context. To spur the development of agents capable of more robust intrinsic reasoning over long horizons, we introduce TextQuests, a benchmark based on the Infocom suite of interactive fiction games. These text-based adventures, which can take human players over 30 hours and require hundreds of precise actions to solve, serve as an effective proxy for evaluating AI agents on focused, stateful tasks. The benchmark is specifically designed to assess an LLM agent's capacity for self-contained problem-solving by precluding the use of external tools, thereby focusing on intrinsic long-context reasoning capabilities in an exploratory environment characterized by the need for trial-and-error learning and sustained problem-solving within a single interactive session. We release TextQuests at https://textquests.ai.

TextQuests : Quelle est la performance des modèles de langage dans les jeux vidéo textuels ?

TextQuests: How Good are LLMs at Text-Based Video Games?

papers.abstract

Support