ChatPaper.aiChatPaper

AstroReason-Bench: Оценка унифицированного агентного планирования в разнородных задачах космического планирования

AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems

January 16, 2026
Авторы: Weiyi Wang, Xinchi Chen, Jingjing Gong, Xuanjing Huang, Xipeng Qiu
cs.AI

Аннотация

Последние достижения в области агентных больших языковых моделей (LLM) позиционируют их как универсальных планировщиков, способных к рассуждениям и действиям в разнообразных задачах. Однако существующие бенчмарки для агентов в основном сосредоточены на символических или слабо связанных с реальностью средах, оставляя их производительность в реальных областях с физическими ограничениями недостаточно изученной. Мы представляем AstroReason-Bench — комплексный бенчмарк для оценки агентного планирования в задачах космического планирования (Space Planning Problems, SPP) — классе высокорисковых проблем с гетерогенными целями, строгими физическими ограничениями и принятием решений на длительных горизонтах. AstroReason-Bench интегрирует несколько режимов планирования, включая связь с наземными станциями и agile-наблюдение Земли, и предоставляет унифицированный агент-ориентированный протокол взаимодействия. Оценивая ряд передовых агентных LLM-систем с открытым и закрытым исходным кодом, мы обнаруживаем, что текущие агенты существенно уступают специализированным решателям, что выявляет ключевые ограничения универсального планирования в условиях реальных ограничений. AstroReason-Bench предлагает сложную и диагностическую тестовую среду для будущих исследований в области агентных систем.
English
Recent advances in agentic Large Language Models (LLMs) have positioned them as generalist planners capable of reasoning and acting across diverse tasks. However, existing agent benchmarks largely focus on symbolic or weakly grounded environments, leaving their performance in physics-constrained real-world domains underexplored. We introduce AstroReason-Bench, a comprehensive benchmark for evaluating agentic planning in Space Planning Problems (SPP), a family of high-stakes problems with heterogeneous objectives, strict physical constraints, and long-horizon decision-making. AstroReason-Bench integrates multiple scheduling regimes, including ground station communication and agile Earth observation, and provides a unified agent-oriented interaction protocol. Evaluating on a range of state-of-the-art open- and closed-source agentic LLM systems, we find that current agents substantially underperform specialized solvers, highlighting key limitations of generalist planning under realistic constraints. AstroReason-Bench offers a challenging and diagnostic testbed for future agentic research.
PDF12January 20, 2026