OdysseyArena : Évaluation des modèles de langage de grande taille pour les interactions à long terme, actives et inductives

Résumé

L'avancée rapide des modèles de langage de grande taille (LLM) a catalysé le développement d'agents autonomes capables de naviguer dans des environnements complexes. Cependant, les évaluations existantes adoptent principalement un paradigme déductif, où les agents exécutent des tâches basées sur des règles explicitement fournies et des objectifs statiques, souvent dans des horizons de planification limités. De manière cruciale, cela néglige la nécessité inductive pour les agents de découvrir de manière autonome des lois de transition latentes à partir de l'expérience, ce qui est la pierre angulaire pour permettre une anticipation agentique et maintenir une cohérence stratégique. Pour combler cette lacune, nous présentons OdysseyArena, qui recentre l'évaluation des agents sur des interactions de long terme, actives et inductives. Nous formalisons et instancions quatre primitives, traduisant les dynamiques de transition abstraites en environnements interactifs concrets. Sur cette base, nous établissons OdysseyArena-Lite pour l'évaluation comparative standardisée, fournissant un ensemble de 120 tâches pour mesurer l'efficacité inductive et la découverte à long terme d'un agent. Poursuivant plus loin, nous introduisons OdysseyArena-Challenge pour tester la stabilité des agents dans des horizons d'interaction extrêmes (par exemple, > 200 étapes). Des expériences approfondies sur plus de 15 LLM leaders révèlent que même les modèles les plus performants présentent des lacunes dans les scénarios inductifs, identifiant un goulot d'étranglement critique dans la quête de la découverte autonome dans des environnements complexes. Notre code et nos données sont disponibles à l'adresse https://github.com/xufangzhi/Odyssey-Arena.

English

The rapid advancement of Large Language Models (LLMs) has catalyzed the development of autonomous agents capable of navigating complex environments. However, existing evaluations primarily adopt a deductive paradigm, where agents execute tasks based on explicitly provided rules and static goals, often within limited planning horizons. Crucially, this neglects the inductive necessity for agents to discover latent transition laws from experience autonomously, which is the cornerstone for enabling agentic foresight and sustaining strategic coherence. To bridge this gap, we introduce OdysseyArena, which re-centers agent evaluation on long-horizon, active, and inductive interactions. We formalize and instantiate four primitives, translating abstract transition dynamics into concrete interactive environments. Building upon this, we establish OdysseyArena-Lite for standardized benchmarking, providing a set of 120 tasks to measure an agent's inductive efficiency and long-horizon discovery. Pushing further, we introduce OdysseyArena-Challenge to stress-test agent stability across extreme interaction horizons (e.g., > 200 steps). Extensive experiments on 15+ leading LLMs reveal that even frontier models exhibit a deficiency in inductive scenarios, identifying a critical bottleneck in the pursuit of autonomous discovery in complex environments. Our code and data are available at https://github.com/xufangzhi/Odyssey-Arena

OdysseyArena : Évaluation des modèles de langage de grande taille pour les interactions à long terme, actives et inductives

OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions

Résumé

Support