ChatPaper.aiChatPaper

AstroReason-Bench : Évaluation de la planification agentique unifiée pour des problèmes hétérogènes de planification spatiale

AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems

January 16, 2026
papers.authors: Weiyi Wang, Xinchi Chen, Jingjing Gong, Xuanjing Huang, Xipeng Qiu
cs.AI

papers.abstract

Les récents progrès des modèles de langage évolués (LLM) agentiques les positionnent comme des planificateurs généralistes capables de raisonner et d'agir sur des tâches diverses. Cependant, les benchmarks existants pour agents se concentrent largement sur des environnements symboliques ou faiblement ancrés, laissant leurs performances dans des domaines réalistes contraints par la physique sous-explorées. Nous présentons AstroReason-Bench, un benchmark complet pour évaluer la planification agentique dans les Problèmes de Planification Spatiale (SPP), une famille de problèmes à haut risque comportant des objectifs hétérogènes, des contraintes physiques strictes et une prise de décision à long horizon. AstroReason-Bench intègre plusieurs régimes de planification, incluant les communications avec les stations au sol et l'observation agile de la Terre, et fournit un protocole d'interaction unifié orienté agent. L'évaluation sur une gamme de systèmes LLM agentiques open-source et propriétaires de pointe révèle que les agents actuels sont nettement moins performants que les solveurs spécialisés, mettant en lumière des limitations clés de la planification généraliste sous contraintes réalistes. AstroReason-Bench offre un banc d'essai exigeant et diagnostique pour la recherche future sur les agents.
English
Recent advances in agentic Large Language Models (LLMs) have positioned them as generalist planners capable of reasoning and acting across diverse tasks. However, existing agent benchmarks largely focus on symbolic or weakly grounded environments, leaving their performance in physics-constrained real-world domains underexplored. We introduce AstroReason-Bench, a comprehensive benchmark for evaluating agentic planning in Space Planning Problems (SPP), a family of high-stakes problems with heterogeneous objectives, strict physical constraints, and long-horizon decision-making. AstroReason-Bench integrates multiple scheduling regimes, including ground station communication and agile Earth observation, and provides a unified agent-oriented interaction protocol. Evaluating on a range of state-of-the-art open- and closed-source agentic LLM systems, we find that current agents substantially underperform specialized solvers, highlighting key limitations of generalist planning under realistic constraints. AstroReason-Bench offers a challenging and diagnostic testbed for future agentic research.
PDF12January 20, 2026