ChatPaper.aiChatPaper

AstroReason-Bench: 이기종 우주 계획 문제에 걸친 통합 에이전트 계획 평가

AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems

January 16, 2026
저자: Weiyi Wang, Xinchi Chen, Jingjing Gong, Xuanjing Huang, Xipeng Qiu
cs.AI

초록

최근 에이전트형 대규모 언어 모델(LLM)의 발전으로 다양한 작업에 걸쳐 추론과 행동이 가능한 일반 목적 플래너로서의 가능성이 부각되고 있습니다. 그러나 기존의 에이전트 벤치마크는 주로 상징적이거나 약하게 구체화된 환경에 초점을 맞추어, 물리적 제약이 있는 현실 세계 영역에서의 성능은 충분히 연구되지 못했습니다. 본 논문에서는 이질적 목표, 엄격한 물리적 제약, 장기적 의사 결정을 특징으로 하는 고위험 문제군인 우주 계획 문제(SPP)에서의 에이전트형 계획 성능을 평가하기 위한 포괄적 벨치마크인 AstroReason-Bench를 소개합니다. AstroReason-Bench는 지상국 통신 및 애자일 지구 관측 등 다양한 스케줄링 체계를 통합하고 통일된 에이전트 지향 상호작용 프로토콜을 제공합니다. 다양한 최첨단 오픈소스 및 클로즈드소스 에이전트형 LLM 시스템을 평가한 결과, 현행 에이전트들은 특화 솔버에 비해 성능이 현저히 낮은 것으로 나타나 현실적 제약 하에서 일반 목적 계획의 주요 한계를 부각시켰습니다. AstroReason-Bench는 향후 에이전트 연구를 위한 도전적이고 진단적인 테스트베드를 제공합니다.
English
Recent advances in agentic Large Language Models (LLMs) have positioned them as generalist planners capable of reasoning and acting across diverse tasks. However, existing agent benchmarks largely focus on symbolic or weakly grounded environments, leaving their performance in physics-constrained real-world domains underexplored. We introduce AstroReason-Bench, a comprehensive benchmark for evaluating agentic planning in Space Planning Problems (SPP), a family of high-stakes problems with heterogeneous objectives, strict physical constraints, and long-horizon decision-making. AstroReason-Bench integrates multiple scheduling regimes, including ground station communication and agile Earth observation, and provides a unified agent-oriented interaction protocol. Evaluating on a range of state-of-the-art open- and closed-source agentic LLM systems, we find that current agents substantially underperform specialized solvers, highlighting key limitations of generalist planning under realistic constraints. AstroReason-Bench offers a challenging and diagnostic testbed for future agentic research.
PDF12January 20, 2026