OdysseyArena: Het benchmarken van grote taalmodellen voor langetermijn, actieve en inductieve interacties

Samenvatting

De snelle vooruitgang van Large Language Models (LLM's) heeft de ontwikkeling gekatalyseerd van autonome agents die in staat zijn om complexe omgevingen te navigeren. Bestaande evaluaties volgen echter voornamelijk een deductief paradigma, waarbij agents taken uitvoeren op basis van expliciet verstrekte regels en statische doelen, vaak binnen beperkte planningshorizons. Cruciaal is dat hierbij de inductieve noodzaak wordt verwaarloosd voor agents om latente transitiewetten autonoom uit ervaring te ontdekken, wat de hoeksteen is voor het mogelijk maken van agent-vooruitziendheid en het handhaven van strategische samenhang. Om deze kloof te overbruggen, introduceren we OdysseyArena, dat de evaluatie van agents hercentreert op lange-termijn, actieve en inductieve interacties. We formaliseren en concretiseren vier primitieven, die abstracte transitiedynamica vertalen naar concrete interactieve omgevingen. Hierop voortbouwend stellen we OdysseyArena-Lite in voor gestandaardiseerde benchmarking, met een set van 120 taken om de inductieve efficiëntie en lange-termijnontdekking van een agent te meten. Verder introduceren we OdysseyArena-Challenge om de stabiliteit van agents stresstesten over extreme interactiehorizons (bijv. > 200 stappen). Uitgebreide experimenten met meer dan 15 toonaangevende LLM's onthullen dat zelfs geavanceerde modellen tekortschieten in inductieve scenario's, wat een kritieke bottleneck identificeert in de zoektocht naar autonome ontdekking in complexe omgevingen. Onze code en gegevens zijn beschikbaar op https://github.com/xufangzhi/Odyssey-Arena.

English

The rapid advancement of Large Language Models (LLMs) has catalyzed the development of autonomous agents capable of navigating complex environments. However, existing evaluations primarily adopt a deductive paradigm, where agents execute tasks based on explicitly provided rules and static goals, often within limited planning horizons. Crucially, this neglects the inductive necessity for agents to discover latent transition laws from experience autonomously, which is the cornerstone for enabling agentic foresight and sustaining strategic coherence. To bridge this gap, we introduce OdysseyArena, which re-centers agent evaluation on long-horizon, active, and inductive interactions. We formalize and instantiate four primitives, translating abstract transition dynamics into concrete interactive environments. Building upon this, we establish OdysseyArena-Lite for standardized benchmarking, providing a set of 120 tasks to measure an agent's inductive efficiency and long-horizon discovery. Pushing further, we introduce OdysseyArena-Challenge to stress-test agent stability across extreme interaction horizons (e.g., > 200 steps). Extensive experiments on 15+ leading LLMs reveal that even frontier models exhibit a deficiency in inductive scenarios, identifying a critical bottleneck in the pursuit of autonomous discovery in complex environments. Our code and data are available at https://github.com/xufangzhi/Odyssey-Arena

OdysseyArena: Het benchmarken van grote taalmodellen voor langetermijn, actieve en inductieve interacties

OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions

Samenvatting

Support