ChatPaper.aiChatPaper

AstroReason-Bench:多様な宇宙計画問題にわたる統合的エージェント計画の評価

AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems

January 16, 2026
著者: Weiyi Wang, Xinchi Chen, Jingjing Gong, Xuanjing Huang, Xipeng Qiu
cs.AI

要旨

近年のエージェンシック大規模言語モデル(LLM)の進歩により、様々なタスクにわたる推論と行動が可能な汎用プランナーとしての地位が確立されつつある。しかし、既存のエージェントベンチマークは主に記号的あるいは弱い基盤付け環境に焦点を当てており、物理的制約のある現実世界領域における性能は十分に検証されていない。本研究では、Space Planning Problems(SPP)におけるエージェンシック計画策定を評価するための総合的なベンチマーク「AstroReason-Bench」を提案する。SPPは、多様な目的、厳格な物理的制約、長期的な意思決定を特徴とする高リスク問題群である。AstroReason-Benchは、地上局通信と敏捷的地球観測を含む複数のスケジューリング体制を統合し、エージェント指向の統一インタラクションプロトコルを提供する。最先端のオープンソース及びクローズドソースのエージェンシックLLMシステムを評価した結果、現在のエージェントは専門ソルバーに大きく劣ることが明らかとなり、現実的制約下での汎用計画策定の主要な限界が浮き彫りとなった。AstroReason-Benchは、将来のエージェンシック研究に向けた挑戦的かつ診断的なテストベッドを提供する。
English
Recent advances in agentic Large Language Models (LLMs) have positioned them as generalist planners capable of reasoning and acting across diverse tasks. However, existing agent benchmarks largely focus on symbolic or weakly grounded environments, leaving their performance in physics-constrained real-world domains underexplored. We introduce AstroReason-Bench, a comprehensive benchmark for evaluating agentic planning in Space Planning Problems (SPP), a family of high-stakes problems with heterogeneous objectives, strict physical constraints, and long-horizon decision-making. AstroReason-Bench integrates multiple scheduling regimes, including ground station communication and agile Earth observation, and provides a unified agent-oriented interaction protocol. Evaluating on a range of state-of-the-art open- and closed-source agentic LLM systems, we find that current agents substantially underperform specialized solvers, highlighting key limitations of generalist planning under realistic constraints. AstroReason-Bench offers a challenging and diagnostic testbed for future agentic research.
PDF12January 20, 2026