오디세이아레나: 장기적, 능동적 및 귀납적 상호작용을 위한 대규모 언어 모델 벤치마킹
OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions
February 5, 2026
저자: Fangzhi Xu, Hang Yan, Qiushi Sun, Jinyang Wu, Zixian Huang, Muye Huang, Jingyang Gong, Zichen Ding, Kanzhi Cheng, Yian Wang, Xinyu Che, Zeyi Sun, Jian Zhang, Zhangyue Yin, Haoran Luo, Xuanjing Huang, Ben Kao, Jun Liu, Qika Lin
cs.AI
초록
대규모 언어 모델(LLM)의 급속한 발전은 복잡한 환경을 탐색할 수 있는 자율 에이전트의 개발을 촉진해 왔습니다. 그러나 기존 평가는 주로 연역적 패러다임을 채택하고 있으며, 에이전트는 제한된 계획 범위 내에서 명시적으로 제공된 규칙과 정적 목표에 따라 작업을 실행합니다. 중요한 것은, 이 방식은 에이전트가 경험으로부터 잠재적인 전이 법칙을 자율적으로 발견해야 하는 귀납적 필요성을 간과한다는 점이며, 이는 에이전트의 예견 능력을 가능하게 하고 전략적 일관성을 유지하는 초석이 됩니다. 이러한 격차를 해소하기 위해 우리는 에이전트 평가를 장기적, 능동적, 귀납적 상호작용에 재초점을 맞춘 OdysseyArena를 소개합니다. 우리는 추상적인 전이 역학을 구체적인 상호작용 환경으로 변환하는 네 가지 기본 요소를 공식화하고 구현합니다. 이를 기반으로 표준화된 벤치마킹을 위한 OdysseyArena-Lite를 구축하여 에이전트의 귀납적 효율성과 장기적 발견 능력을 측정하는 120개의 과제 세트를 제공합니다. 더 나아가 극단적인 상호작용 범위(예: 200단계 초과)에서 에이전트 안정성을 집중적으로 검증하는 OdysseyArena-Challenge를 도입합니다. 15개 이상의 주요 LLM에 대한 광범위한 실험을 통해 최첨단 모델조차 귀납적 시나리오에서 부족함을 보여주며, 복잡한 환경에서 자율적 발견을 추구하는 데 있어 중요한 병목 현상을 확인했습니다. 우리의 코드와 데이터는 https://github.com/xufangzhi/Odyssey-Arena에서 확인할 수 있습니다.
English
The rapid advancement of Large Language Models (LLMs) has catalyzed the development of autonomous agents capable of navigating complex environments. However, existing evaluations primarily adopt a deductive paradigm, where agents execute tasks based on explicitly provided rules and static goals, often within limited planning horizons. Crucially, this neglects the inductive necessity for agents to discover latent transition laws from experience autonomously, which is the cornerstone for enabling agentic foresight and sustaining strategic coherence. To bridge this gap, we introduce OdysseyArena, which re-centers agent evaluation on long-horizon, active, and inductive interactions. We formalize and instantiate four primitives, translating abstract transition dynamics into concrete interactive environments. Building upon this, we establish OdysseyArena-Lite for standardized benchmarking, providing a set of 120 tasks to measure an agent's inductive efficiency and long-horizon discovery. Pushing further, we introduce OdysseyArena-Challenge to stress-test agent stability across extreme interaction horizons (e.g., > 200 steps). Extensive experiments on 15+ leading LLMs reveal that even frontier models exhibit a deficiency in inductive scenarios, identifying a critical bottleneck in the pursuit of autonomous discovery in complex environments. Our code and data are available at https://github.com/xufangzhi/Odyssey-Arena