AstroReason-Bench: Valutazione della Pianificazione Agente Unificata su Problemi Eterogenei di Pianificazione Spaziale

Abstract

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) agentici li hanno posizionati come pianificatori generalisti in grado di ragionare e agire su compiti diversi. Tuttavia, gli attuali benchmark per agenti si concentrano prevalentemente su ambienti simbolici o debolmente ancorati alla realtà, lasciando inesplorate le loro prestazioni in domini del mondo reale vincolati dalla fisica. Introduciamo AstroReason-Bench, un benchmark completo per valutare la pianificazione agentica nei Problemi di Pianificazione Spaziale (SPP), una famiglia di problemi ad alto rischio con obiettivi eterogenei, vincoli fisici stringenti e processi decisionali a lungo termine. AstroReason-Bench integra molteplici regimi di schedulazione, inclusi le comunicazioni con le stazioni di terra e l'osservazione agile della Terra, e fornisce un protocollo di interazione unificato orientato agli agenti. Valutando una serie di sistemi LLM agentici all'avanguardia, open-source e proprietari, riscontriamo che gli agenti attuali hanno prestazioni sostanzialmente inferiori rispetto a risolutori specializzati, evidenziando limitazioni chiave della pianificazione generalista sotto vincoli realistici. AstroReason-Bench offre un banco di prova stimolante e diagnostico per la futura ricerca sugli agenti.

English

Recent advances in agentic Large Language Models (LLMs) have positioned them as generalist planners capable of reasoning and acting across diverse tasks. However, existing agent benchmarks largely focus on symbolic or weakly grounded environments, leaving their performance in physics-constrained real-world domains underexplored. We introduce AstroReason-Bench, a comprehensive benchmark for evaluating agentic planning in Space Planning Problems (SPP), a family of high-stakes problems with heterogeneous objectives, strict physical constraints, and long-horizon decision-making. AstroReason-Bench integrates multiple scheduling regimes, including ground station communication and agile Earth observation, and provides a unified agent-oriented interaction protocol. Evaluating on a range of state-of-the-art open- and closed-source agentic LLM systems, we find that current agents substantially underperform specialized solvers, highlighting key limitations of generalist planning under realistic constraints. AstroReason-Bench offers a challenging and diagnostic testbed for future agentic research.

AstroReason-Bench: Valutazione della Pianificazione Agente Unificata su Problemi Eterogenei di Pianificazione Spaziale

AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems

Abstract

Support