ChatPaper.aiChatPaper

AstroReason-Bench: Bewertung einheitlicher agentenbasierter Planung für heterogene Weltraumplanungsprobleme

AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems

January 16, 2026
papers.authors: Weiyi Wang, Xinchi Chen, Jingjing Gong, Xuanjing Huang, Xipeng Qiu
cs.AI

papers.abstract

Jüngste Fortschritte bei agentenbasierten Large Language Models (LLMs) haben sie zu universellen Planern gemacht, die in der Lage sind, über verschiedene Aufgaben hinweg zu schlussfolgern und zu handeln. Allerdings konzentrieren sich bestehende Agenten-Benchmarks weitgehend auf symbolische oder schwach fundierte Umgebungen, wodurch ihre Leistung in physikalisch beschränkten realen Domänen unzureichend erforscht bleibt. Wir stellen AstroReason-Bench vor, einen umfassenden Benchmark zur Bewertung agentenbasierter Planung bei Weltraumplanungsproblemen (Space Planning Problems, SPP), einer Familie von hochriskanten Problemen mit heterogenen Zielen, strengen physikalischen Randbedingungen und langfristiger Entscheidungsfindung. AstroReason-Bench integriert mehrere Planungsregime, einschließlich Bodenstationskommunikation und agiler Erdbeobachtung, und bietet ein einheitliches, agentenorientiertes Interaktionsprotokoll. Bei der Evaluation einer Reihe modernster agentenbasierter LLM-Systeme aus Open- und Closed-Source-Bereich stellen wir fest, dass aktuelle Agenten erheblich schlechter abschneiden als spezialisierte Löser, was zentrale Grenzen universeller Planung unter realistischen Constraints aufzeigt. AstroReason-Bench bietet eine anspruchsvolle und diagnostische Testplattform für zukünftige agentenbasierte Forschung.
English
Recent advances in agentic Large Language Models (LLMs) have positioned them as generalist planners capable of reasoning and acting across diverse tasks. However, existing agent benchmarks largely focus on symbolic or weakly grounded environments, leaving their performance in physics-constrained real-world domains underexplored. We introduce AstroReason-Bench, a comprehensive benchmark for evaluating agentic planning in Space Planning Problems (SPP), a family of high-stakes problems with heterogeneous objectives, strict physical constraints, and long-horizon decision-making. AstroReason-Bench integrates multiple scheduling regimes, including ground station communication and agile Earth observation, and provides a unified agent-oriented interaction protocol. Evaluating on a range of state-of-the-art open- and closed-source agentic LLM systems, we find that current agents substantially underperform specialized solvers, highlighting key limitations of generalist planning under realistic constraints. AstroReason-Bench offers a challenging and diagnostic testbed for future agentic research.
PDF12January 20, 2026